Pipeline de Chamada de Variantes RNA-Seq: Dos Leituras de Transcritos às Mutações Validadas

RNA-Seq A chamada de variantes é um método eficaz para encontrar alterações genéticas em regiões do genoma que estão a ser ativamente transcritas. Este artigo descreve um fluxo de trabalho claro para encontrar mutações germinativas e somáticas em dados de sequenciação de RNA. Inclui etapas-chave como controlo de qualidade, alinhamento, deteção de variantes, filtragem e validação final. Examinamos ferramentas computacionais de ponta e melhores práticas metodológicas que abordam desafios específicos do RNA, incluindo junções de splicing, edição de RNA e expressão específica de alelos. Além disso, discutimos estratégias para distinguir variantes genéticas verdadeiras de artefatos técnicos e eventos de processamento de RNA, melhorando assim a precisão e fiabilidade da identificação de variantes baseadas no transcriptoma para aplicações em medicina de precisão.

Figure 1 alt. Flow diagram illustrating the sequential steps of a variant calling bioinformatics pipeline. (Mark T W Ebbert, 2016) Figura 1. O esquema simplificado do pipeline de bioinformática para a análise de chamada de variantes. (Stepanka Zverinova, 2021)

Controlo de Qualidade de Dados e Pré-processamento

Antes de embarcar em chamada de variantesGarantir que os dados de entrada sejam de alta qualidade é crucial. Os conjuntos de dados de RNA-Seq frequentemente contêm artefatos técnicos e preconceitos que devem ser abordados através de rigorosos passos de controlo de qualidade e pré-processamento.

Avaliação da Qualidade de Leitura com o FastQC

O FastQC representa a ferramenta padrão de referência para a avaliação inicial da qualidade de dados de sequenciação. Quando aplicado a leituras de RNA-Seq, o FastQC gera relatórios abrangentes que destacam potenciais problemas, incluindo:

  • Pontuações de Qualidade BaseOs scores de qualidade Phred normalmente diminuem em direção às extremidades da leitura. Scores abaixo de 20 (taxa de erro de 1%) merecem atenção.
  • Conteúdo da SequênciaPadrões incomuns na distribuição de nucleótidos podem indicar contaminação por adaptadores ou viéses técnicos.
  • Conteúdo de GCDesvios da distribuição esperada de GC sugerem potencial contaminação ou viés na preparação da biblioteca.
  • Duplicação de SequênciaA duplicação excessiva pode indicar artefatos de PCR ou uma expressão muito elevada de transcritos específicos.
  • Sequências Sobre-representadasSequências que ocorrem frequentemente representam frequentemente adaptadores, primers ou transcritos altamente abundantes, como o rRNA.
  • Conteúdo de K-merDistribuições de k-mer incomuns podem revelar vieses na preparação da biblioteca ou na sequenciação.

Um comando típico do FastQC para análise de RNA-Seq é o seguinte:

bash

fastqc -o diretório_de_saida input_sample_R1.fastq.gz input_sample_R2.fastq.gz

Adaptador e Corte de Qualidade com Trimmomatic

Após a avaliação de qualidade, o pré-processamento geralmente envolve o corte de bases de baixa qualidade e a remoção de sequências de adaptadores. O Trimmomatic destaca-se nestas tarefas, oferecendo uma variedade de opções específicas para dados de RNA-Seq:

bash

trimmomatic PE -phred33 input_R1.fastq.gz input_R2.fastq.gz \

output_R1_paired.fastq.gz output_R1_unpaired.fastq.gz \

output_R2_paired.fastq.gz output_R2_unpaired.fastq.gz \

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LIDERANÇA:3 TRAILING:3 \

JANELA DESLIZANTE:4:15 COMPRIMENTO MÍNIMO:36

Os parâmetros neste comando desempenham várias funções-chave:

  • ILLUMINACLIPRemove sequências de adaptadores especificadas em TruSeq3-PE.fa
  • LIDERANÇA/RETROCESSORemove as bases de baixa qualidade (abaixo da qualidade 3) do início e do fim das leituras.
  • JANELA DESLIZANTEOs scans lêem com uma janela de 4 bases, cortando quando a qualidade média desce abaixo de 15.
  • MINLENDescarta leituras mais curtas que 36 bases após o aparo.

As considerações específicas do RNA-Seq durante o pré-processamento incluem:

  • Depleção de rRNAO RNA ribossómico pode dominar bibliotecas de RNA-Seq. Ferramentas como o SortMeRNA podem identificar e remover leituras de rRNA.
  • Caudas de Poli-AAs caudas de Poly(A) em moléculas de mRNA podem levar a regiões de baixa complexidade que devem ser aparadas.
  • Degradação de RNAA amostras de RNA degradadas podem apresentar viés de 3', exigindo verificações adicionais de qualidade.

Tratamento de Duplicados Técnicos

Ao contrário do DNA-Seq, os dados de RNA-Seq contêm tanto duplicados de PCR (artefatos técnicos) como duplicados naturais (de genes altamente expressos). Para fins de chamada de variantes, marcar duplicados continua a ser importante, mas a remoção completa pode eliminar sinais valiosos de genes altamente expressos. Ferramentas como o Picard MarkDuplicates podem marcar duplicados enquanto preservam a informação para análises subsequentes:

bash

java -jar picard.jar MarcarDuplicados \

I=input.bam \

O=duplicados_marcados.bam \

M=métricas_dup_marcadas.txt

Dados pré-processados de alta qualidade formam a base para uma chamada de variantes precisa. O próximo passo envolve alinhar estas leituras processadas ao genoma de referência, tendo em conta as características únicas dos dados de RNA-Seq.

Figure 2 alt. Comparative density plot showing execution time distribution between SAMTools and Picard tools for duplicate read removal in RNA-Seq data processing. (Mark T W Ebbert, 2016) Figura 2. Gráfico de densidade do tempo de execução para a remoção de duplicados tanto do SAMTools como do Picard. (Mark T W Ebbert, 2016)

Alinhamento e Preparação de Leituras Conscientes de Splice

Alinhamento Consciente de Splice

O alinhamento preciso das leituras de RNA-seq a um genoma de referência é um passo crítico na chamada de variantes. Ao contrário de DNA-seq As leituras de RNA-seq originam-se de transcritos de mRNA maduros, onde os íntrons foram removidos. Portanto, os alinhadores de DNA padrão não são adequados para dados de RNA-seq, pois não conseguem lidar com leituras que abrangem junções exon-exon.

Alinhadores conscientes de splicing, como o STAR (Alinhamento de Transcritos Espalhados a um Referencial) e o HISAT2 (Indexação Hierárquica para Alinhamento Espalhado de Transcritos), são especificamente projetados para lidar com as complexidades dos dados de RNA-seq. Estes alinhadores podem mapear leituras que abrangem junções de splicing, dividindo-as e alinhando cada segmento a diferentes exões.

O STAR tornou-se particularmente popular devido à sua velocidade e precisão. Ele constrói um índice de array de sufixos do genoma de referência e utiliza um algoritmo que encontra de forma eficiente os prefixos mapeáveis máximos de cada leitura. Para um pipeline típico de chamada de variantes de RNA-seq, o STAR pode ser executado com os seguintes parâmetros:

bash

STAR--genomeDir /caminho/para/índice_do_genoma \

--lerFicheirosEm sample_R1.fastq.gz sample_R2.fastq.gz \

--readFilesCommand zcat \

--prefixoNomeArquivoExemplo sample_ \

--outSAMtype BAM OrdenadoPorCoordenada \

--modoDuasPassagens Básico \

--outFilterMultimapNmax 20 \

--alignSJoverhangMin 8 \

--alignSJDBoverhangMin 1 \

--outFilterMismatchNmax 999 \

--outFilterMismatchNoverReadLmax 0.04 \

--alinharIntronMin 20 \

--alinharIntronMax 1000000 \

--alinharMatesGapMax 1000000

A abordagem de mapeamento "em duas etapas" é particularmente benéfica para a chamada de variantes, uma vez que primeiro identifica os pontos de junção de splicing a partir dos dados e depois utiliza esta informação para orientar o alinhamento final.

Leitura do Processamento para Chamadas de Variantes

Após o alinhamento, são necessários vários passos adicionais de processamento para preparar os dados para a chamada de variantes:

  • 1. Marcação de duplicadosLeituras duplicadas resultantes da amplificação por PCR podem levar a chamadas de variantes falso-positivas. Ferramentas como o MarkDuplicates do Picard identificam e marcam essas duplicatas.
  • 2. Dividir leituras em operações CIGAR NOs alinhadores de RNA-seq representam leituras que abrangem intrões utilizando a operação N na string CIGAR. A ferramenta GATK SplitNCigarReads divide essas leituras em múltiplos alinhamentos, garantindo que apenas os segmentos exónicos sejam utilizados para a chamada de variantes.
  • 3. Recalibração da pontuação de qualidade da base (BQSR)Este passo ajusta os escores de qualidade base para contabilizar erros sistemáticos na sequenciação. Para dados de RNA-seq, o BQSR é realizado utilizando locais de variantes conhecidas como conjunto de treino.

Porque os alinhadores de RNA têm convenções diferentes dos alinhadores de DNA, é necessário reformular os alinhamentos que abrangem intrões para chamadores de variantes como o HaplotypeCaller. O passo SplitNCigarReads divide leituras com N no CIGAR em múltiplos alinhamentos suplementares e corta de forma rígida as sobras que não coincidem. Por defeito, também reatribui as qualidades de mapeamento para bons alinhamentos para corresponder às convenções de DNA.

Um comando típico do GATK para processar alinhamentos de RNA-seq pode parecer:

bash

gatk SplitNCigarReads \

-R reference.fasta \

-I input.bam \

-O split.bam

gatk BaseRecalibrator \

-R reference.fasta \

-I split.bam \

--sites-conhecidos known_variants.vcf \

-O recal_data.tabela

gatk ApplyBQSR \

-R referência.fasta \

-I dividir.bam \

--bqsr-recal-file recal_data.table \

-O recalibrado.bam

Estes passos de pré-processamento são essenciais para uma chamada de variantes precisa, pois ajudam a reduzir artefatos e preconceitos inerentes aos dados de RNA-seq. Um alinhamento e processamento adequados das leituras de RNA-seq garantem que as variantes chamadas em etapas subsequentes sejam diferenças genéticas genuínas e não artefatos técnicos.

Chamada de Variantes com Parâmetros Específicos para RNA

A chamada de variantes a partir de dados de RNA-seq requer abordagens especializadas que considerem as características únicas dos dados transcriptómicos. Várias ferramentas foram desenvolvidas ou adaptadas para este fim, com o Genome Analysis Toolkit (GATK) HaplotypeCaller e o DeepVariant a emergirem como opções de destaque.

GATK HaplotypeCaller para RNA-seq

O GATK HaplotypeCaller utiliza uma abordagem de montagem local de novo para chamar variantes, o que é particularmente benéfico para dados de RNA-seq, onde os alinhamentos em torno dos locais de splicing podem ser complexos. O Genome Analysis Toolkit (GATK), desenvolvido no Broad Institute, fornece pipelines de última geração para a descoberta e genotipagem de variantes germinativas e somáticas.

Quando utilizado para dados de RNA-seq, o HaplotypeCaller requer parâmetros específicos para otimizar as características dos dados transcriptómicos:

bash

gatk HaplotypeCaller \

-R referência.fasta \

- Recalibrei.bam \

-O variants.vcf \

--nao-utilizar-bases-com-recortes-suaves \

-stand-call-conf 20.0 \

--dbsnp dbSnp.vcf

O parâmetro --dont-use-soft-clipped-bases é particularmente importante para dados de RNA-seq, pois impede que o chamador utilize porções soft-clipped das leituras, que podem representar alinhamentos através de junções de splicing em vez de verdadeiras variações.

DeepVariant para RNA-seq

Recentemente, abordagens baseadas em deep learning têm mostrado resultados promissores para a chamada de variantes a partir de dados de RNA-seq. O DeepVariant, um chamador de variantes baseado em deep learning, foi ampliado para aprender e considerar os desafios únicos apresentados pelos dados de RNA-seq. O modelo DeepVariant RNA-seq produz chamadas de variantes altamente precisas a partir de dados de sequenciamento de RNA e supera abordagens existentes como Platypus e GATK.

O DeepVariant adota uma abordagem fundamentalmente diferente para a chamada de variantes em comparação com os métodos tradicionais. Ele converte leituras alinhadas em imagens e utiliza uma rede neural convolucional para identificar variantes, semelhante ao reconhecimento de imagem. Esta abordagem permite que o modelo aprenda padrões complexos nos dados que podem ser difíceis de capturar com algoritmos baseados em regras.

Em comparações de referência, o DeepVariant demonstrou um desempenho superior na chamada de variantes. Numa comparação com o GATK HaplotypeCaller, o DeepVariant apresentou uma maior razão de transição para transversão (Ti/Tv) (2.38 ± 0.02) do que o GATK (2.04 ± 0.07), sugerindo que o DeepVariant chamou proporcionalmente mais verdadeiros positivos. A taxa de concordância entre os dois pipelines foi de 88.73%.

Chamadas de Variantes Somáticas em RNA-seq

Embora os métodos acima sejam principalmente projetados para a chamada de variantes germinativas, os dados de RNA-seq também podem ser usados para identificar mutações somáticas, particularmente na pesquisa do câncer. Para a chamada de variantes somáticas, ferramentas como MuTect2 (parte do GATK) ou Strelka2 podem ser adaptadas para dados de RNA-seq.

No entanto, a chamada de variantes somáticas a partir de RNA-seq enfrenta desafios adicionais, incluindo:

  • 1. Distinguir mutações somáticas de eventos de edição de RNA
  • 2. Tratamento da expressão específica de alelos que pode distorcer as frequências alélicas variantes
  • 3. Contabilização da heterogeneidade tumoral e da presença de múltiplas populações celulares

Apesar destes desafios, a RNA-seq pode fornecer informações valiosas sobre a paisagem mutacional expressa dos tumores, complementando as abordagens baseadas em DNA.

Nos últimos anos, tem havido um aumento do interesse no desenvolvimento de abordagens de chamada conjunta para dados de RNA-seq, semelhantes às que são comumente utilizadas para sequenciação de DNA. O pipeline GATK totalmente validado para chamar variantes em dados de RNA-seq era tradicionalmente um fluxo de trabalho por amostra que não incluía análise de genotipagem conjunta. Esforços recentes têm-se concentrado em combinar comandos modernos do GATK de fluxos de trabalho distintos para chamar variantes em amostras de RNA-seq utilizando genotipagem conjunta.

Figure 3 alt. Diagram illustrating various types of DNA variants including SNPs, insertions, deletions, and structural variations with their relative frequencies and genomic impacts. ( Stepanka Zverinova, 2021) Figura 3. Diversidade dos tipos de variantes de DNA. (Stepanka Zverinova, 2021)

Filtragem de Artefatos Específicos de RNA

Mesmo com métodos especializados de chamada de variantes, os dados de RNA-seq podem produzir muitas chamadas de variantes falsas positivas devido às complexidades inerentes dos dados transcriptómicos. Portanto, uma filtragem rigorosa é essencial para distinguir variantes genuínas de artefatos.

Fontes Comuns de Artefatos de RNA-seq

Vários fatores podem levar a chamadas de variantes falso positivas em dados de RNA-seq:

  • 1. Edição de RNAA edição de adenosina para inosina (A-to-I, lido como A-to-G) e de citidina para uridina (C-to-U, lido como C-to-T) são modificações pós-transcricionais comuns que podem ser mal interpretadas como variantes genómicas.
  • 2. Erros de alinhamento em junções de emendaLeituras que abrangem junções de splicing podem estar incorretamente alinhadas, levando a chamadas de variantes falsas perto das extremidades dos exões.
  • 3. Erros específicos de sequênciaCertos contextos de sequência são propensos a taxas de erro mais elevadas durante o sequenciamento, resultando em desajustes sistemáticos.
  • 4. Erros de transcrição reversaA conversão de RNA em cDNA durante a preparação da biblioteca pode introduzir erros que aparecem como variantes.
  • 5. Regiões de baixa complexidadeRegiões repetitivas ou de baixa complexidade frequentemente apresentam alinhamentos ambíguos, levando a chamadas de variantes espúrias.

Estratégias de Filtragem

Para filtrar eficazmente artefatos das chamadas de variantes de RNA-seq, podem ser empregues várias estratégias. Estas incluem a exclusão de variantes em locais de edição de RNA, a filtragem de variantes em regiões de baixa complexidade de sequências codificantes e a remoção de variantes genéticas comuns utilizando bases de dados como 1000 Genomes, gnomAD e dbSNP.

Uma abordagem de filtragem abrangente pode incluir:

  • 1. Filtragem de locais de edição de RNAOs locais de edição de RNA conhecidos podem ser obtidos a partir de bases de dados como o REDIportal e excluídos das chamadas de variantes.
  • 2. Filtragem baseada em expressõesAs variantes em genes com níveis de expressão muito baixos são mais propensas a serem artefatos. Definir um limiar mínimo para a expressão do transcrito (por exemplo, TPM > 1) pode ajudar a filtrar essas variantes.
  • 3. Filtragem da frequência do alelo variante (VAF)Devido à expressão específica de alelos, variantes genuínas podem não seguir as frequências alélicas esperadas de 0,5 (heterozigoto) ou 1,0 (homozigoto) observadas na sequenciação de DNA. No entanto, valores de VAF extremamente baixos (por exemplo, < 0,2) em genes bem expressos podem indicar artefatos.
  • 4. Filtragem de viés de fitaAs variantes genuínas devem ser observadas em ambas as fitas, a direta e a inversa. Um forte viés de fita pode indicar artefatos de sequenciação ou alinhamento.
  • 5. Filtragem da distância do ponto de junção de splicingAs variantes chamadas dentro de algumas bases das junções de splicing são frequentemente artefatos. Excluir variantes dentro de 3-5 bases de locais de splicing conhecidos pode melhorar a precisão.

Exemplo de comando GATK VariantFiltration:

bash

gatk VariantFiltration \

-R referência.fasta \

-V variantes.vcf \

-O variantes_filtradas.vcf \

--filter-name "DesvioDeEstrand" \

--expressão-de-filtro "FS > 30.0" \

--filter-name "QualByDepth" \

--expressão-de-filtro "QD < 2.0" \

--filter-name "ReadPosRankSum" \

--expressão-filtro "ReadPosRankSum < -8.0" \

--filter-name "EventosAgrupados" \

--tamanho-f janela-do-cluster 35 \

--tamanho-do-cluster 3

Na filtragem de variantes de RNA-seq do GATK, parâmetros adicionais são frequentemente incluídos para filtrar eventos agrupados que podem poluir os ficheiros de resultados, como o parâmetro de tamanho do agrupamento que especifica o número de SNPs que compõem um agrupamento (valor padrão: 3).

Abordagens recentes também têm utilizado aprendizagem automática para melhorar a filtragem de variantes em dados de RNA-seq. Estes métodos podem aprender padrões complexos que discriminam entre variantes verdadeiras e artefatos, potencialmente melhorando as abordagens de filtragem baseadas em regras.

Figure 4 alt. Genomic visualization showing the Eip63E gene region with identified start-gained SNP mutation in the w1118; iso-2; iso-3 Drosophila strain. ( Pablo Cingolani, 2012) Figura 4. Análise do SNP ganho no início do Eip63E em w1118; iso-2; iso-3. (Pablo Cingolani, 2012)

Validação e Benchmarking de Variantes Derivadas de RNA

A validação de variantes identificadas a partir de dados de RNA-seq é crucial para garantir a fiabilidade dos resultados. Vários métodos estão disponíveis para validação, que vão desde métodos de sequenciação ortogonais até a comparação com conjuntos de dados de referência.

Validação cruzada com dados de sequenciação de DNA emparelhados

O padrão-ouro para validar variantes de RNA-seq é a comparação com dados de sequenciação de DNA emparelhados do mesmo indivíduo. Em estudos de sequenciação clínica, as variantes são tipicamente filtradas para remover artefatos recorrentes associados ao alinhamento de leituras curtas e podem ser confirmadas visualmente através da revisão manual dos alinhamentos de sequência.

Ao comparar variantes de RNA-seq e DNA-seq, podem surgir vários padrões:

  • 1. Variantes concordantesAs variantes encontradas tanto em RNA como em DNA são provavelmente variantes germinativas genuínas.
  • 2. variantes específicas de RNAAs variantes presentes no RNA, mas não no DNA, podem representar eventos de edição de RNA ou mutações somáticas em genes altamente expressos.
  • 3. variantes específicas de DNAAs variantes presentes no DNA mas não no RNA podem ocorrer em genes que não estão expressos no tecido sequenciado ou podem estar sujeitas a expressão específica de alelos.

A taxa de concordância entre variantes de RNA-seq e DNA-seq pode variar dependendo dos níveis de expressão. Genes altamente expressos normalmente mostram maior concordância, enquanto genes com baixa expressão podem ter mais discrepâncias devido à cobertura insuficiente nos dados de RNA-seq.

Benchmarking com Conjuntos de Dados Sintéticos

Embora os métodos acima sejam principalmente concebidos para a chamada de variantes germinativas, os dados de RNA-seq também podem ser utilizados para identificar mutações somáticas, particularmente na investigação do câncer. Para a chamada de variantes somáticas, ferramentas como MuTect2 (parte do GATK) ou Strelka2 podem ser adaptadas para dados de RNA-seq.

No entanto, a chamada de variantes somáticas a partir de RNA-seq enfrenta desafios adicionais, incluindo:

  • 1. Distinguir mutações somáticas de eventos de edição de RNA
  • 2. Lidar com a expressão específica de alelos que pode distorcer as frequências alélicas variantes
  • 3. Contabilização da heterogeneidade tumoral e da presença de múltiplas populações celulares

Na ausência de dados de sequenciação de DNA correspondentes, conjuntos de dados sintéticos ou de referência podem ser utilizados para avaliar pipelines de chamada de variantes. O projeto Sequencing Quality Control 2 (SEQC2), liderado pela FDA, desenvolveu materiais de referência que podem ser partilhados por laboratórios para a avaliação padronizada de tecnologias de NGS. O SEQC2 desenvolveu controlos sintéticos que fornecem uma representação inequívoca de sequências difíceis, incluindo variantes complexas, que podem ser utilizados para avaliar o desempenho de diversas tecnologias de sequenciação.

Estes conjuntos de dados sintéticos fornecem chamadas de variantes de verdade conhecida contra as quais os pipelines de chamada de variantes de RNA-seq podem ser avaliados. As métricas comumente utilizadas para benchmarking incluem:

  • 1. Sensibilidade (Recall)A proporção de variantes verdadeiras que são corretamente identificadas.
  • 2. PrecisãoA proporção de variantes chamadas que são variantes verdadeiras.
  • 3. F1 ScoreA média harmónica da precisão e da revocação, fornecendo uma medida equilibrada de desempenho.

Estudos de benchmarking mostraram que o modelo DeepVariant RNA-seq alcança a maior mediana de F1 score em diferentes regiões genómicas, apresentando o melhor desempenho geral nas regiões CDS. Além disso, comparações de desempenho em tempo de execução mostraram que os modelos DeepVariant RNA-seq são mais rápidos do que o GATK, mantendo uma maior precisão.

Integração com Informação Funcional

Outra abordagem para a validação é integrar as chamadas de variantes com informações funcionais. Por exemplo, variantes que se prevê ter um impacto funcional significativo (por exemplo, mutações sem sentido, mutações de deslocamento de quadro) e que ocorrem em genes conhecidos por estarem associados ao fenótipo em estudo são mais propensas a ser genuínas e biologicamente relevantes.

Da mesma forma, variantes que mostram padrões consistentes em múltiplas amostras ou que estão enriquecidas em condições biológicas específicas podem ter uma confiança mais elevada. Por exemplo, mutações recorrentes em amostras de cancro podem representar mutações condutoras, mesmo que não sejam validadas por sequenciação de ADN.

Visualização e Revisão Manual

Apesar dos avanços em métodos de filtragem e validação automatizados, a revisão manual das chamadas de variantes continua a ser um passo importante em muitos estudos, particularmente para variantes clinicamente relevantes. Ferramentas como o Integrative Genomics Viewer (IGV) permitem que os investigadores visualizem as leituras alinhadas que suportam cada variante, ajudando a identificar potenciais artefatos ou desalinhamentos.

Ao rever variantes de RNA-seq no IGV, deve-se prestar especial atenção a:

  • 1. Distribuição de leituraAs variantes devem ser suportadas por múltiplas leituras independentes.
  • 2. Posição dentro das leiturasAs variantes que ocorrem predominantemente nas extremidades das leituras podem ser artefatos.
  • 3. Junções de splicingAs variantes próximas aos locais de splicing devem ser analisadas cuidadosamente.
  • 4. Qualidade baseAs variantes devem ser suportadas por chamadas de base de alta qualidade.

A confirmação visual através da revisão manual dos alinhamentos de sequências continua a ser um passo de validação importante em estudos de sequenciamento clínico, onde a precisão das chamadas de variantes é fundamental.

Conclusão

A chamada de variantes a partir de RNA-seq oferece uma abordagem valiosa para identificar variantes genéticas dentro da porção transcrita do genoma. Embora apresente desafios únicos em comparação com o sequenciamento de DNA, os avanços em métodos e ferramentas bioinformáticas melhoraram significativamente a precisão e a fiabilidade da chamada de variantes a partir de dados de RNA-seq.

O pipeline descrito neste artigo—desde o controlo de qualidade e pré-processamento até ao alinhamento, chamada de variantes, filtragem e validação—oferece uma estrutura abrangente para extrair chamadas de variantes de alta confiança a partir de dados de RNA-seq. Ao aproveitar parâmetros específicos de RNA e estratégias de filtragem, os investigadores podem distinguir eficazmente variantes genuínas de artefatos técnicos.

Desenvolvimentos recentes, particularmente a aplicação de abordagens de deep learning como o DeepVariant, têm alargado os limites do que é possível com a chamada de variantes em RNA-seq. O modelo de RNA-seq do DeepVariant demonstrou um desempenho superior em comparação com métodos tradicionais, destacando o potencial do machine learning para enfrentar os desafios complexos inerentes a dados transcriptómicos.

À medida que as tecnologias de sequenciação continuam a evoluir e os métodos computacionais melhoram, a chamada de variantes de RNA-seq provavelmente se tornará uma ferramenta cada vez mais valiosa na investigação genómica, fornecendo informações sobre as consequências funcionais das variações genéticas e o seu papel na saúde e na doença humana.

Referências:

  1. Zverinova, S., & Guryev, V. (2022). Chamada de variantes: Considerações, práticas e desenvolvimentos. Mutação humana, 43(8), 976–985. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e terei todo o prazer em ajudar com a tradução.
  2. Ebbert, M. T., Wadsworth, M. E., Staley, L. A., Hoyt, K. L., Pickett, B., Miller, J., Duce, J., Iniciativa de Neuroimagem da Doença de Alzheimer, Kauwe, J. S., & Ridge, P. G. (2016). Avaliação da necessidade de remoção de duplicados de PCR dos dados de sequenciação de nova geração e uma comparação de abordagens. BMC bioinformática, 17 Supl 7(Supl 7), 239. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e terei prazer em ajudar com a tradução.
  3. Cingolani, P., Platts, A., Wang, leL., Coon, M., Nguyen, T., Wang, L., Land, S. J., Lu, X., & Ruden, D. M. (2012). Um programa para anotar e prever os efeitos de polimorfismos de nucleotídeo único, SnpEff: SNPs no genoma da cepa w1118 de Drosophila melanogaster; iso-2; iso-3. Voar, 6(2), 80–92. Desculpe, não posso acessar links. Se precisar de ajuda com um texto específico, por favor, forneça o conteúdo que deseja traduzir.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo