A anotação precisa de clusters no Seurat desempenha um papel crítico na extração de insights valiosos de conjuntos de dados de sequenciação de RNA de célula única (scRNA-seq). Ao associar clusters detectados computacionalmente com relevância biológica, os investigadores podem compreender melhor a heterogeneidade celular e a funcionalidade. Este guia oferece uma visão abrangente, passo a passo, de métodos, ferramentas e estratégias para uma anotação eficaz de clusters, visando alcançar resultados fiáveis e de alta qualidade nas análises de scRNA-seq.
Seurat oferece um conjunto versátil de ferramentas comumente utilizadas para a análise de dados de scRNA-seq. Ao permitir o agrupamento de células de acordo com perfis de expressão genética, avançou significativamente a investigação de populações celulares. No entanto, o agrupamento por si só é insuficiente; uma anotação precisa é essencial para interpretar os resultados computacionais de uma forma biologicamente significativa. Este processo conecta estruturas matemáticas com contextos biológicos, ajudando os investigadores a obter uma compreensão mais profunda da diversidade celular e dos seus papéis.
O que é agrupamento no Seurat?
A agrupamento no Seurat envolve a organização de células em populações distintas com base nos seus perfis transcricionais. Este agrupamento é tipicamente visualizado utilizando técnicas de redução de dimensionalidade como UMAP ou t-SNE, que representam dados de alta dimensão num espaço bidimensional. Os clusters representam grupos discretos de células que frequentemente correspondem a tipos celulares específicos ou estados funcionais.
Por que é que a anotação é importante?
A anotação confere significado biológico a estes clusters computacionais, garantindo que os investigadores possam extrair insights acionáveis dos seus dados.
Sem uma anotação precisa, a utilidade biológica da análise de scRNA-seq é diminuída.
Recurso
O Seurat oferece flexibilidade na anotação de clusters através de abordagens manuais, automatizadas e integradas.
A anotação manual depende do conhecimento prévio de genes marcadores. Ao comparar os genes expressos diferencialmente (DEGs) dentro de cada cluster com marcadores estabelecidos, os investigadores podem atribuir rótulos de tipo celular.
Por exemplo, um agrupamento com alta expressão de CD3D e CD8A pode ser anotado como células T citotóxicas. Esta abordagem é frequentemente utilizada em estudos onde os investigadores têm hipóteses específicas sobre os tipos de células presentes. Num estudo, os investigadores anotaram manualmente agrupamentos de um conjunto de dados de scRNA-seq de células mononucleares do sangue periférico humano (PBMCs) ao identificar agrupamentos que expressavam marcadores linfocitários conhecidos, como CD19 para células B e CD3D para células T, confirmando assim as suas identidades através de perfis de expressão de genes marcadores suportados pela literatura (Zhao, J, et al., 2020).
Figura 1. Gráfico UMAP das células imunes (Zhao, J, et al., 2020).
Existem muitos softwares e métodos para anotação de células únicas, e já em 2021, houve um artigo que resumiu e comparou as vantagens e desvantagens de diferentes softwares de anotação de células únicas (Xie, B, et al., 2021).
Princípio da Anotação Automatizada
O princípio da anotação automática de tipos celulares aproveita recursos de dados públicos de sequenciação de RNA de célula única (scRNA-seq) e algoritmos para prever diretamente os tipos celulares sem necessitar de anotação manual. Inclui principalmente três abordagens: aprendizagem ágil, que se baseia em classificadores; aprendizagem preguiçosa, baseada na similaridade com células vizinhas; e aprendizagem de marcadores, que utiliza genes marcadores e funções de pontuação. Estes métodos são treinados em conjuntos de dados de grande escala e empregam algoritmos ou mecanismos de pontuação específicos para atribuir tipos celulares em dados desconhecidos de forma rápida e precisa. Isso melhora significativamente a eficiência analítica, tornando-o adequado para grandes conjuntos de dados e análises repetidas, ao mesmo tempo que reduz a dependência de expertise na área.
Figura 2. Fluxo de trabalho dos métodos tradicionais e automáticos de identificação de tipos celulares. (Xie, B, et al., 2021).
Método de Anotação Automatizada Seurat
Este método foi publicado pela primeira vez na Nature Biotechnology (Butler, A., et al., 2018). Os investigadores inicialmente empregaram a Análise de Correlação Canónica (CCA) para corrigir efeitos de lote causados por fatores não biológicos em diferentes amostras. Dado que o estudo foi publicado relativamente cedo, a CCA pode apresentar o risco de sobrecorreção e pode ser intensiva em termos de tempo ao integrar grandes conjuntos de dados. Portanto, em aplicações práticas, ferramentas mais avançadas, como o Harmony ou outros métodos de integração, podem ser consideradas para construir conjuntos de dados de referência. Subsequentemente, os investigadores identificaram tipos celulares únicos e as suas coordenadas UMAP (Uniform Manifold Approximation and Projection) no conjunto de dados de validação através da comparação de rótulos de tipos celulares e projeção. Em essência, o núcleo deste método reside em aproveitar conjuntos de dados conhecidos para anotar conjuntos de dados desconhecidos e mapear a informação UMAP das células do conjunto de dados desconhecido para o conjunto de dados conhecido, garantindo que os mesmos tipos celulares de ambos os conjuntos ocupem aproximadamente as mesmas posições no gráfico UMAP.
O conjunto de dados de referência à esquerda eliminou basicamente o efeito de lote de diferentes métodos de sequenciação após a fusão CCA, e os diferentes tipos de células à direita estão claramente distinguidos.
Figura 3. CCA para dados integrados e previsão de tipo celular.
Os genes marcadores são fundamentais na anotação de clusters, servindo como identificadores para tipos celulares específicos.
A função FindAllMarkers() do Seurat identifica genes diferencialmente expressos (DEGs) para cada cluster. Estes genes são comparados com marcadores conhecidos para atribuir identidades biológicas. Por exemplo:
Esta função gera uma lista classificada de genes associados a cada cluster.
| Tipo de Célula | Genes Marcadores |
|---|---|
| Células T | CD3D, CD4, CD8A |
| Células B | MS4A1 |
| Monócitos | LYZ |
| Células NK | GNLY, NKG7 |
| Células Dendríticas | FCER1A, CLEC10A |
A visualização é crucial para interpretar e comunicar os resultados de sequenciação de RNA de célula única (scRNA-seq). O Seurat suporta várias técnicas de visualização para exibir clusters anotados de forma eficaz, permitindo que os investigadores obtenham insights sobre conjuntos de dados complexos.
Figura 4. UMAP para anotações de referência e rótulos transferidos da consulta.
Figura 5. t-SNE para atribuições de clusters (Kobak et al., 2019).
A anotação de clusters no Seurat é uma pedra angular da investigação em sequenciação de RNA de célula única, permitindo a descoberta da diversidade e função celular. Ao aproveitar genes marcadores, ferramentas avançadas e técnicas de visualização, os investigadores podem desbloquear profundos insights biológicos.
Referências: