RNA-Seq de Célula Única vs. Bulk: Qual Escolher?
Single-Cell vs. Bulk RNA-Seq: Qual escolher?
A diferença fundamental entre scRNA-seq e bulk RNA-seq é a resolução. O bulk RNA-seq mede a expressão génica média em milhares a milhões de células, produzindo um único perfil de expressão por amostra. O scRNA-seq mede a expressão em células individuais, gerando milhares de perfis de expressão por amostra — um para cada célula capturada.
Esta diferença na resolução determina os tipos de questões biológicas que cada método pode abordar. O scRNA-seq é a escolha adequada quando a questão de pesquisa envolve: identificar e caracterizar populações celulares raras (<5% do total de células), dissecar a heterogeneidade celular dentro de um tecido, reconstruir trajetórias de desenvolvimento ou relações de linhagem, caracterizar o microambiente tumoral em resolução de célula única, ou identificar respostas específicas de tipo celular a tratamentos. O Bulk RNA-seq é a escolha adequada quando a questão envolve comparar níveis médios de expressão entre condições em populações celulares homogéneas, ou quando a pesquisa requer alta taxa de através de muitas amostras e a resolução de tipo celular não é necessária.
A decisão entre os dois métodos também depende do custo e da complexidade. Um experimento padrão de scRNA-seq custa 5-10 vezes mais por amostra do que o RNA-seq em massa, e a análise de dados requer ferramentas computacionais especializadas e substancialmente mais armazenamento e memória. Para projetos onde a resolução do tipo celular não é essencial, o RNA-seq em massa é a escolha mais eficiente. Para projetos onde a heterogeneidade celular é a questão central, o scRNA-seq fornece informações que os métodos em massa não conseguem acessar.
Orientação prática — quando usar cada métodoPara um investigador que estuda as respostas imunes a uma vacina, o RNA-seq em massa de células T classificadas a partir de amostras de sangue oferece uma abordagem económica para medir as alterações transcripcionais numa população celular definida. Para um investigador que estuda a heterogeneidade tumoral numa biópsia de tumor sólido, o scRNA-seq é o único método que pode resolver a mistura de células cancerígenas, células estromais, células imunes e células endoteliais presentes na amostra. A escolha deve ser orientada pela necessidade de resolução a nível de célula única ou se a questão biológica pode ser respondida com médias a nível populacional.
Figura 1. Comparação entre scRNA-seq e RNA-seq em massa — resolução, custo e complexidade dos dados
Legenda: Visão comparativa do RNA-seq de célula única e de massa, mostrando diferenças na resolução (células individuais vs médias de tecido), custo por amostra, complexidade dos dados e aplicações de pesquisa apropriadas para cada método.
Fatores de Design Experimental que Determinam a Qualidade dos Dados
A qualidade dos dados de scRNA-seq é determinada por decisões tomadas antes do início do sequenciamento. Vários fatores afetam diretamente o número e a qualidade das células recuperadas e a fiabilidade da análise subsequente.
Preparação de amostras e dissociação celularA qualidade dos dados de célula única depende criticamente da qualidade da suspensão de células únicas. Os métodos de dissociação de tecidos devem preservar a viabilidade celular enquanto libertam células individuais. Os tempos e temperaturas de digestão enzimática devem ser otimizados para cada tipo de tecido — a digestão excessiva provoca respostas de stress que alteram a expressão genética, enquanto a digestão insuficiente produz agregados e dupletos. Para amostras congeladas ou fixas, são necessários protocolos específicos para recuperar núcleos ou RNA intactos. Para tipos de amostras desafiadoras, como tecido adiposo, osso ou material vegetal, foram desenvolvidos protocolos de dissociação especializados que devem ser testados antes de se comprometer a um experimento em grande escala. Serviços de sequenciação de células únicas pode fornecer recomendações de protocolo com base no tipo de amostra e nos objetivos de pesquisa.
Número de células-alvoO número de células a capturar depende da frequência esperada da população celular de interesse. Para identificar tipos celulares raros (<1% do total de células), recomenda-se direcionar 10.000-20.000 células por amostra para garantir uma representação suficiente. Para caracterizar os principais tipos celulares em um tecido, 3.000-5.000 células podem ser suficientes. Estratégias de multiplexação utilizando hashing celular ou índices marcados com lípidos podem aumentar o rendimento e reduzir o custo por amostra ao processar múltiplas amostras em uma única reação de captura. A desvantagem é o aumento da complexidade técnica na desmultiplexação e a potencial contaminação entre amostras.
Profundidade de sequenciaçãoPara análise a nível de gene (detectar quais genes estão expressos e a sua abundância relativa), 20.000-50.000 leituras por célula é tipicamente suficiente. Para análise a nível de isoforma ou deteção de genes pouco expressos, podem ser necessárias 50.000-100.000 leituras por célula. O custo total de sequenciação é determinado multiplicando as leituras por célula pelo número de células — um experimento com 10.000 células a 50.000 leituras por célula requer 500 milhões de leituras, comparável a um projeto de RNA-seq em bulk de 15-20 amostras em custo de sequenciação.
Seleção de plataformaA plataforma 10x Genomics Chromium é o sistema mais amplamente adotado, suportando expressão génica 3', perfilamento imunitário 5' e leituras multi-ómicas (CITE-seq, Feature Barcode). A sua ampla adoção significa um extenso suporte da comunidade, protocolos validados e compatibilidade com a maioria das ferramentas de análise subsequente. Métodos baseados em placas, como o SMART-seq, oferecem cobertura de transcritos completos e maior sensibilidade por célula, tornando-os adequados para a deteção de isoformas e estudos que requerem cobertura completa de transcritos, mas o rendimento é limitado a centenas de células em vez de milhares. A escolha entre métodos baseados em gotículas e métodos baseados em placas deve ser guiada pelo número de células necessário: métodos baseados em gotículas para milhares de células a uma resolução mais baixa por célula, métodos baseados em placas para centenas de células a uma resolução mais alta por célula. Serviços de sequenciação de células únicas pode suportar tanto plataformas baseadas em gotículas como plataformas baseadas em placas, dependendo dos requisitos do projeto.
Replicados biológicosNo mínimo, são recomendadas três réplicas biológicas por condição para experiências de scRNA-seq, a fim de contabilizar a variabilidade biológica entre amostras. A combinação de amostras antes da sequenciação com hashing celular pode aumentar a capacidade de processamento enquanto mantém a informação das réplicas. Ao contrário do RNA-seq em massa, onde cada amostra produz um perfil de expressão, o scRNA-seq produz milhares de perfis por amostra, o que pode criar uma falsa sensação de poder estatístico — mesmo com milhares de células, os resultados de uma única amostra não podem ser generalizados, pois podem refletir efeitos específicos da amostra em vez de efeitos específicos da condição.
Figura 2. Design experimental de scRNA-seq — parâmetros chave e intervalos recomendados
Legenda: Principais parâmetros de design experimental para scRNA-seq, mostrando faixas recomendadas para preparação de amostras, número de células-alvo, profundidade de sequenciação, seleção de plataforma (10x vs SMART-seq) e réplicas biológicas.
O Pipeline Padrão de Análise de scRNA-Seq
O pipeline padrão de análise de scRNA-seq segue uma sequência estruturada de seis etapas, cada uma com escolhas de ferramentas e decisões de parâmetros específicas: controlo de qualidade e filtragem de células, normalização, correção de lote, redução de dimensionalidade e agrupamento, anotação de tipos celulares e análise biológica subsequente. Cada etapa produz saídas intermédias que devem ser inspecionadas antes de prosseguir para a próxima — saltar esta etapa de inspeção é uma causa comum de resultados finais insatisfatórios.
a escolha entre Seurat e Scanpy pode depender da familiaridade da equipa com R ou Python. Ambas as ferramentas têm uma comunidade ativa e documentação abrangente, facilitando o acesso a tutoriais e exemplos. Em última análise, a decisão deve considerar as necessidades específicas do projeto e a experiência da equipa com as respectivas linguagens de programação. serviços de bioinformática podem fornecer pipelines de análise de scRNA-seq padronizados que tratem de QC, normalização, integração e anotação com definições de parâmetros documentadas. Serviços de análise de dados genómicos também pode suportar análises personalizadas a montante, incluindo estudos de pseudotempo e comunicação célula-célula.
QC e Filtragem de Células — Limiares Quantificáveis
O controlo de qualidade em scRNA-seq envolve a filtragem de células que são provavelmente artefatos técnicos em vez de sinais biológicos genuínos. Três métricas são utilizadas como filtros padrão de QC:
- Contagem de genes únicos (nFeature_RNA)Células com menos de 200-500 genes detectados são tipicamente gotículas vazias ou células mortas. Células com mais de 5.000-7.500 genes podem ser dupletas (duas células capturadas numa única gotícula). Os limiares devem ser ajustados com base no tipo celular — células maiores expressam naturalmente mais genes do que células menores.
- Percentagem de leituras mitocondriais (percent.mt)Um alto conteúdo mitocondrial (>15-20%) indica células com membranas danificadas que perderam RNA citoplasmático. Estas células devem ser removidas porque os seus perfis de expressão são dominados por transcritos mitocondriais e não refletem o verdadeiro transcriptoma da célula.
- Deteção de duplicadosA deteção de duplos computacionais utilizando ferramentas como DoubletFinder, scDblFinder ou scrublet identifica células cujos perfis de expressão se assemelham a uma mistura de dois tipos celulares distintos. Uma taxa de duplos de 3-8% é típica para capturas padrão de 10x. Taxas mais elevadas indicam um carregamento celular subótimo.
Estes limiares devem ser visualizados antes e depois da filtragem utilizando gráficos de violino e gráficos de dispersão. A decisão de filtrar deve ser baseada na distribuição dessas métricas em todas as células, e não em limiares fixos arbitrários. Uma população celular com conteúdo mitocondrial naturalmente alto (por exemplo, células renais ou hepáticas) deve ter limiares de filtragem diferentes dos das células imunes. Após a filtragem, a percentagem de células retidas deve ser documentada como parte do relatório de análise — remover mais de 30-40% das células justifica uma revisão do protocolo de dissociação ou da qualidade da amostra.
Remoção de gotículas vaziasUm passo crítico de pré-processamento específico para scRNA-seq baseado em gotículas é distinguir gotículas vazias (que contêm RNA ambiental, mas nenhuma célula) de células genuínas. O filtro padrão do CellRanger utiliza um limiar de contagem de UMI, mas métodos mais sofisticados como o EmptyDrops (pacote DropletUtils) utilizam um teste estatístico para identificar códigos de barras com perfis de expressão que diferem do fundo de RNA ambiental. Usar o EmptyDrops em vez de um limiar fixo de UMI recupera células pequenas com baixo conteúdo de RNA e remove a contaminação de RNA de fundo das células restantes.
Figura 3. Limiares de filtragem de QC de scRNA-seq — contagem de genes, percentagem mitocondrial e deteção de duplos
Legenda: Limiares de controlo de qualidade para scRNA-seq mostrando gráficos de violino e gráficos de dispersão para contagem de genes únicos (nFeature_RNA), percentagem de leituras mitocondriais (percent.mt) e deteção de duplicados computacionais, com intervalos de filtragem recomendados para cada métrica.
Normalização e Correção de Lotes — Escolhendo o Método Certo
A normalização em scRNA-seq deve ter em conta tanto a variação técnica (diferenças na eficiência de captura, profundidade de sequenciação entre células) como a variação biológica (diferenças no tamanho das células e no conteúdo de RNA).
Métodos de normalizaçãoSCTransform (Seurat) é o método mais amplamente utilizado para normalização de scRNA-seq. Ele modela as contagens de UMI usando uma regressão binomial negativa regularizada que leva em conta a profundidade de sequenciamento enquanto preserva a variação biológica. O SCTransform identifica as fontes técnicas de variação de forma mais eficaz do que a log-normalização e produz resíduos que estão prontos para análise posterior. Também identifica genes altamente variáveis como parte do processo de normalização, eliminando a necessidade de um passo separado de seleção de HVG. O trade-off é o custo computacional — o SCTransform é mais lento do que a log-normalização e pode exigir 16-32 GB de RAM para conjuntos de dados que excedem 20.000 células.
O método scran utiliza uma estratégia baseada em agrupamento para estimar fatores de tamanho para grupos de células, produzindo contagens normalizadas que são comparáveis entre células. É computacionalmente eficiente e funciona bem para conjuntos de dados com proporções equilibradas de tipos celulares. A log-normalização (log(CPM + 1)) é a abordagem mais simples, mas não considera a relação entre a profundidade de sequenciação e a variância da expressão génica inerente aos dados de scRNA-seq, tornando-a o método menos recomendado.
Correção em loteQuando múltiplas amostras são processadas em diferentes reações de captura ou corridas de sequenciação, os efeitos de lote são inevitáveis. O Harmony é um método rápido e eficaz que corrige os efeitos de lote no espaço de incorporação PCA. Funciona bem para a maioria dos conjuntos de dados e é robusto a diferenças na composição dos tipos celulares entre lotes, tornando-se uma boa escolha padrão para a integração de múltiplas amostras. O fluxo de trabalho de integração do Seurat (FindIntegrationAnchors + IntegrateData) utiliza análise de correlação canónica (CCA) para identificar estados celulares partilhados entre lotes e é o método recomendado quando se espera que os efeitos de lote sejam fortes ou ao integrar dados de diferentes plataformas. O MNN (vizinhos mais próximos mútuos) corrige os efeitos de lote ao nível da expressão e é adequado para conjuntos de dados onde se espera que os mesmos tipos celulares estejam presentes em todos os lotes.
Figura 4. Métodos de correção de lote para scRNA-seq — Comparação entre Harmony, Seurat CCA e MNN
Legenda: Comparação de três métodos de correção de lotes para scRNA-seq—Harmony, integração CCA do Seurat e MNN—mostrando as suas estratégias de correção, requisitos computacionais e casos de uso mais adequados para a integração de conjuntos de dados.
Redução de Dimensionalidade e Agrupamento
Após a normalização e correção de lote, a matriz de expressão gênica de alta dimensão é reduzida a uma representação de baixa dimensão para visualização e agrupamento.
Análise de Componentes Principais (ACP)A PCA é o primeiro passo padrão na redução de dimensionalidade. Para a maioria dos conjuntos de dados de scRNA-seq, 20-50 componentes principais capturam a variação biológica significativa. O gráfico do cotovelo (variância explicada por PC) é utilizado para determinar o número ótimo de PCs — o ponto onde a curva se achata indica o limite além do qual os componentes capturam principalmente ruído. Selecionar PCs a menos descarta a variação biológica relevante para distinguir tipos celulares semelhantes; selecionar PCs a mais introduz ruído que pode obscurecer a estrutura de agrupamento.
Visualização UMAPO UMAP fornece uma representação 2D da paisagem celular que preserva tanto a estrutura local como a global. Substituiu em grande parte o t-SNE para visualização de scRNA-seq devido à sua rapidez e melhor preservação das relações globais entre os clusters celulares.
AgrupamentoOs algoritmos de Louvain e Leiden são os métodos padrão para identificar grupos de células. O Leiden é preferido em relação ao Louvain porque garante grupos bem conectados e é menos propenso a produzir comunidades desconectadas. O parâmetro de resolução controla a granularidade da agrupamento — uma resolução mais alta produz mais grupos que podem representar subtipos celulares distintos, mas também pode dividir excessivamente populações celulares contínuas. Um fluxo de trabalho típico testa resoluções de 0,2 a 1,2 e seleciona a resolução que produz grupos biologicamente interpretáveis sem fragmentação excessiva.
Identificação de marcadores de clusterUma vez definidos os clusters, os genes marcadores para cada cluster são identificados ao comparar o perfil de expressão de cada cluster com todos os outros. A função FindAllMarkers do Seurat com o teste de soma de postos de Wilcoxon é o método padrão. A saída é uma lista de genes que estão regulados para cima em cada cluster, classificados por mudança logarítmica média ou valor p ajustado. Estes genes marcadores são utilizados para a anotação do tipo celular e devem ser interpretados no contexto da biologia conhecida — um cluster que expressa marcadores de células T (CD3D, CD8A) é provavelmente uma população de células T, enquanto um que expressa marcadores de células B (CD79A, MS4A1) é provavelmente uma população de células B.
Anotação de Tipo Celular — Manual vs. Automatizada
A anotação do tipo celular é o passo que traduz as identidades dos clusters em significado biológico. Estão disponíveis duas abordagens, com diferentes compromissos.
Anotação manualGenes marcadores conhecidos para cada tipo celular esperado são utilizados para rotular clusters com base nos seus perfis de expressão. A anotação manual é o padrão-ouro para precisão, mas é demorada e requer especialização no tecido ou tipo celular em estudo. É recomendada para projetos onde a precisão da anotação é crítica, como estudos clínicos ou projetos focados na identificação de novos subtipos celulares.
Anotação automatizadaFerramentas como SingleR, CellTypist e ScType comparam o perfil de expressão de cada célula com conjuntos de dados de referência para atribuir automaticamente rótulos de tipo celular. A anotação automatizada é rápida e reproduzível, mas depende fortemente da qualidade e relevância do conjunto de dados de referência. Se a referência não incluir tipos celulares presentes no conjunto de dados de consulta, essas células serão mal classificadas ou ficarão sem atribuição. Uma estratégia prática é usar a anotação automatizada como uma primeira passagem e, em seguida, validar ou refinar os resultados com a inspeção manual de genes marcadores.
Para projetos que requerem anotação de tipo celular validada com controlos de qualidade apropriados, serviços de análise bioinformática pode fornecer tanto estratégias de anotação automatizadas como manuais, com conjuntos de genes marcadores documentados e etapas de validação cruzada.
Ferramenta de Análise Descendente
Uma vez identificados os tipos de células, uma variedade de análises subsequentes pode ser realizada dependendo da questão de investigação.
- Análise de expressão diferencial (DE)Identifica genes que são diferencialmente expressos entre tipos celulares ou entre condições dentro de um tipo celular. O teste de soma de postos de Wilcoxon (padrão do Seurat) ou o MAST são métodos comumente utilizados. Abordagens de pseudobulk que agregam contagens por amostra e tipo celular antes de aplicar métodos de DE em bulk (DESeq2, edgeR) fornecem resultados mais conservadores e reproduzíveis.
- Análise de enriquecimento de conjuntos de genesTesta se os genes DE estão enriquecidos em vias específicas ou categorias funcionais. GSEA ou análise de sobre-representação utilizando bases de dados GO, KEGG ou Reactome.
- Análise de trajetória de pseudotempoReconstrói trajetórias de desenvolvimento ou diferenciação a partir de dados de scRNA-seq, ordenando células ao longo de um caminho contínuo com base na similaridade transcricional. O Monocle 3 e o Slingshot são ferramentas padrão para inferência de trajetórias. O scVelo utiliza a velocidade do RNA para inferir estados celulares futuros e direcionalidade.
- Análise da comunicação entre célulasPrevê interacções entre ligandos e recetores entre tipos celulares utilizando bases de dados como CellChat, NicheNet ou SingleCellSignalR.
- Inferência de variação no número de cópias (CNV)Identifica alterações cromossómicas em grande escala a partir de dados de scRNA-seq utilizando ferramentas como o InferCNV, particularmente relevantes em estudos de cancro.
Figura 5. Armadilhas comuns do scRNA-seq — problemas, causas e soluções
Resumo das armadilhas comuns na análise de scRNA-seq, incluindo baixa recuperação celular, altas taxas de duplicatas, efeitos de lote que dominam a agrupamento, clusters ininterpretáveis devido ao sobreagrupamento e incerteza na anotação devido a incompatibilidade com referências.
Requisitos Computacionais e de Armazenamento para scRNA-Seq
Os projetos de scRNA-seq geram substancialmente mais dados e requerem mais recursos computacionais do que os projetos de RNA-seq em massa de tamanho de amostra comparável.
- Dados brutos por captura 10xUma corrida padrão de 10x, direcionada a 10.000 células a 50.000 leituras por célula, produz aproximadamente 500 milhões de leituras, gerando 30-50 GB de dados FASTQ por amostra.
- Requisitos de armazenamentoPara um projeto de 10 amostras, planeie cerca de 300-500 GB de dados brutos, mais 100-200 GB para arquivos alinhados e processados. Total: 500-700 GB.
- Requisitos de memóriaA análise de 10.000 células com Seurat e Scanpy requer 16-32 GB de RAM. Para conjuntos de dados que excedem 50.000 células, recomenda-se 64-128 GB.
- Tempo de computaçãoUm fluxo de trabalho padrão do Seurat para 10.000 células leva de 2 a 4 horas. Para 100.000 células, planeie de 12 a 24 horas. Os fluxos de trabalho do Scanpy são geralmente mais rápidos e mais eficientes em termos de memória para grandes conjuntos de dados.
Direcções Emergentes — Multi-Ómicas e Integração Espacial
A tecnologia de célula única está a evoluir além da transcriptómica para capturar múltiplas camadas moleculares da mesma célula. O CITE-seq mede simultaneamente a expressão génica e a abundância de proteínas de superfície utilizando anticorpos conjugados a oligonucleótidos. O scATAC-seq perfila a acessibilidade da cromatina com resolução de célula única. As plataformas de multi-óptica de célula única (10x Multiome) capturam a expressão de RNA e o ATAC-seq da mesma célula numa única reação.
a integração de scRNA-seq com transcriptómica espacial é uma das áreas mais ativas de desenvolvimento metodológico. As plataformas de transcriptómica espacial (10x Visium, Slide-seq, MERFISH, Xenium) mapeiam a expressão génica para locais nos tecidos, fornecendo contexto espacial para os tipos celulares identificados por scRNA-seq. Métodos computacionais como RCTD, Cell2location e SpaGCN permitem a integração de dados de referência de scRNA-seq com dados espaciais para inferir a organização espacial dos tipos celulares. Para grupos de investigação que planeiam incorporar estas abordagens, serviços de análise multi-ômica pode suportar a integração de dados entre modalidades transcriptómicas, epigenómicas e espaciais.
Armadilhas Comuns do scRNA-Seq e Como Evitá-las
| Problema Observado | Causa Raiz | Prevenção |
|---|---|---|
| Baixa recuperação celular | Dissociação pobre, baixa viabilidade, carregamento subótimo | Otimizar o protocolo de dissociação; avaliar a viabilidade antes de carregar. |
| Taxa de duplicação elevada (>10%) | Concentração excessiva de carga celular | Calcule a carga com cuidado; utilize a deteção de duplos computacional. |
| Os efeitos de lote dominam a agrupamento. | Lotes diferentes não equilibrados | Utilize hashing de células; inclua correção de lote no pipeline. |
| Clusters não interpretáveis | Sobre-agregação; gotículas vazias incluídas | Teste múltiplas resoluções; filtre gotículas vazias de forma rigorosa. |
| Incerteza de anotação | Genes marcadores em falta; incompatibilidade de referência | Utilize múltiplas estratégias de anotação; valide com marcadores independentes. |
Perguntas Frequentes
Quantas células preciso para scRNA-seq?
Para caracterizar os principais tipos de células em um tecido, 3.000-5.000 células por amostra são tipicamente suficientes. Para detectar populações celulares raras (<1% do total de células), o alvo deve ser de 10.000-20.000 células. O número necessário depende da frequência esperada do tipo celular mais raro de interesse.
Qual é a profundidade de sequenciamento necessária para scRNA-seq?
Para análise a nível de genes, 20.000-50.000 leituras por célula é o padrão. Para análise a nível de isoformas ou splicing, podem ser necessárias 50.000-100.000 leituras por célula. Uma maior profundidade proporciona uma deteção mais sensível de genes pouco expressos, mas com um custo por célula aumentado.
Devo usar Seurat ou Scanpy para análise de scRNA-seq?
Ambos produzem resultados comparáveis para fluxos de trabalho padrão. O Seurat (R) oferece mais funcionalidades integradas para integração e visualização. O Scanpy (Python) proporciona maior flexibilidade para análises personalizadas e é mais eficiente em termos de memória para conjuntos de dados que excedem 50.000 células.
Como posso lidar com efeitos de lote em dados de scRNA-seq?
A Harmony é recomendada para a maioria dos conjuntos de dados. A integração CCA do Seurat é apropriada para conjuntos de dados com fortes efeitos de lote e tipos celulares sobrepostos. O MNN é adequado para integração entre diferentes plataformas ou tecnologias.
Qual é a diferença entre scRNA-seq 3' e 5'?
A sequenciação de scRNA-seq 3' (padrão 10x Genomics) sequencia a extremidade 3' dos transcritos ao menor custo por célula. A sequenciação de scRNA-seq 5' sequencia a extremidade 5' e permite o perfilamento emparelhado de recetores imunes juntamente com a expressão génica, tornando-se a escolha preferida para estudos de imunologia.
Posso combinar scRNA-seq com outras tecnologias ómicas?
Sim. O CITE-seq adiciona a quantificação de proteínas de superfície, o scATAC-seq adiciona acessibilidade da cromatina e a transcriptómica espacial fornece contexto tecidual. A integração de multi-ópticas é uma área de investigação ativa com métodos computacionais em rápida melhoria.
Como posso determinar a resolução de agrupamento ideal para o meu conjunto de dados?
Teste resoluções de 0,2 a 1,2 e avalie a qualidade dos clusters usando a pontuação de silhueta, a expressão diferencial entre clusters e a interpretabilidade biológica dos genes marcadores. A resolução ótima produz clusters que são transcricionalmente distintos e correspondem a tipos celulares conhecidos.
Qual é a diferença entre UMAP e t-SNE para visualização de scRNA-seq?
UMAP é mais rápido, preserva melhor a estrutura global e é o padrão atual para visualização de scRNA-seq. t-SNE destaca-se na preservação da estrutura local, mas pode distorcer relações entre clusters e é mais lento para grandes conjuntos de dados.
Como posso validar anotações de tipo celular em scRNA-seq?
Utilize múltiplos genes marcadores independentes para cada tipo celular, compare a anotação automatizada com a inspeção manual e valide contra conjuntos de dados publicados ou métodos experimentais independentes.
Apenas para fins de investigação, não destinado a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Referências:
- Melhores práticas para análise de células únicas através de modalidades. Nature Reviews Genetics. 2023;24:550-572.
- Práticas recomendadas atuais na análise de RNA-seq de célula única: um tutorial. Biologia de Sistemas Moleculares. 2019;15:e8746.
- Um manual prático sobre o controlo de qualidade de dados de sequenciação de RNA de célula única. Revista da Associação Médica Formosana2024;123:1205-1215.
- Avanços e desafios na análise de dados de sequenciação de RNA de célula única. Briefings em Bioinformática. 2026;27:bbaf723.
- Sequenciação de células únicas para multi-ómiques: tecnologias e desafios. Pesquisa de Biomarcadores. 2024;12:124.