Fluxo de Trabalho de Bioinformática de Sequenciação do Exoma Completo
Visão Geral do WES
O advento do sequenciamento de próxima geração (NGS) acelerou significativamente a investigação em genómica, produzindo milhões a biliões de leituras de sequências a alta velocidade. Atualmente, as plataformas NGS disponíveis incluem Illumina, Ion Torrent/Life Technologies, 454/Roche, Pacific Biosciences, Nanopore e GenapSys. Elas podem produzir leituras com comprimentos de 100 a 10.000 bp, permitindo uma cobertura suficiente do genoma a um custo mais baixo. Mas, face à enorme quantidade de dados de sequências, como devemos lidar com eles da melhor forma? E quais são os métodos computacionais e ferramentas de análise mais apropriados para este fim? Nesta revisão, focamo-nos no pipeline de bioinformática de sequenciação do exoma completo (WES).
O sequenciamento do exoma refere-se a uma metodologia de análise genómica que envolve o sequenciamento da totalidade das regiões exónicas do genoma de um organismo. Isso é realizado através da enriquecimento do DNA na região do exoma por meio de captura de sequência ou tecnologia de alvo, seguido de sequenciamento de alto rendimento. Representando cerca de 1% do genoma (aproximadamente 30MB), a região exómica contém aproximadamente 85% das mutações patogénicas.
A maioria das variações funcionais relacionadas ao fenótipo de um indivíduo está predominantemente localizada na região exónica cromossómica. Para os investigadores genéticos que tentam descobrir as causas de mais de 6.800 doenças raras, o sequenciamento do exoma fornece uma ferramenta valiosa para identificar Variantes de Nucleotídeo Único (SNVs), pequenas inserções e deleções (InDels), bem como mutações primárias raras que podem elucidar doenças hereditárias complexas.
A análise bioinformática de WES desempenha um papel fundamental na investigação biológica, na exploração de doenças genéticas e no seu diagnóstico e tratamentos subsequentes. Isso impulsionou o avanço científico e criou novos caminhos para melhorar a saúde humana. Com o progresso contínuo na tecnologia e a melhoria das ferramentas analíticas, o potencial da bioinformática de WES pode ser ainda mais explorado e concretizado.
Serviço que pode interessar-lhe
Fluxo de Trabalho de Bioinformática de WES
Pode ler o artigo sobre o princípio e o fluxo de trabalho do WES para saber mais sobre o WES. Pode ler o artigo. princípio e fluxo de trabalho do sequenciamento do exoma completo para saber mais sobre WES. O foco principal deste artigo é fornecer uma visão abrangente do fluxo de trabalho analítico em bioinformática seguido após o sequenciamento do exoma. Um fluxo de trabalho típico da análise de WES inclui estas etapas: controlo de qualidade dos dados brutos, pré-processamento, alinhamento de sequências, processamento pós-alinhamento, chamada de variantes, anotação de variantes e filtragem e priorização de variantes. Estas serão discutidas abaixo.
Figura 1. Um quadro geral da análise de dados de WES (Bao et al. 2014).
Controlo de qualidade de dados brutos
A geração de dados de sequenciação envolve múltiplos procedimentos, como a extração de DNA, a construção de bibliotecas e o próprio processo de sequenciação. No entanto, estes procedimentos podem resultar em dados de qualidade insuficiente ou dados que são intrinsecamente inválidos, necessitando de uma avaliação rigorosa de controlo de qualidade da saída de dados brutos pós-sequenciação. A implementação de uma gestão de qualidade rigorosa abre caminho para a produção de dados de sequenciação de alta qualidade, que, por sua vez, contribui para a otimização de procedimentos subsequentes de análise bioinformática, como o alinhamento de sequências e a deteção de variantes. Consequentemente, isto melhora tanto a eficiência como a precisão da análise de dados.
Os dados de sequências geralmente têm dois formatos padrão comuns: FASTQ e FASTA. Os arquivos FASTQ podem armazenar pontuações de qualidade de base escaladas por Phred para medir melhor a qualidade da sequência. É, portanto, amplamente aceito como o formato padrão para dados brutos de NGS. Existem várias ferramentas desenvolvidas para avaliar a qualidade dos dados brutos de NGS, como FastQC, FastQ Screen, FASTX-Toolkit e NGS QC Toolkit.
Ler parâmetros de QC:
Distribuição da pontuação de qualidade base
Distribuição da pontuação de qualidade da sequência
Distribuição do comprimento de leitura
Distribuição de conteúdo GC
Nível de duplicação de sequência
Problema de amplificação por PCR
Biasamento de k-mers
Sequências sobre-representadas
Pré-processamento de dados
Com um relatório de QC abrangente (que geralmente envolve os parâmetros acima), os pesquisadores podem determinar se a pré-processamento de dados é necessário. Os passos de pré-processamento geralmente envolvem a remoção de adaptadores da extremidade 3', a filtragem de leituras de baixa qualidade ou redundantes e o corte de sequências indesejadas. Várias ferramentas podem ser usadas para o pré-processamento de dados, como Cutadapt e Trimmomatic. PRINSEQ e QC3 podem alcançar tanto o controlo de qualidade como o pré-processamento.
A pré-processamento de dados existe não apenas para mitigar o ruído dos dados e reduzir resultados falsos positivos, mas também para simplificar os processos de análise subsequentes. O pré-processamento envolve várias etapas críticas, como controlo de qualidade, remoção de poluentes técnicos, filtragem de sequências de baixa frequência e eliminação de redundâncias. O objetivo final é converter os dados pré-processados em um formato adequado para a análise subsequente, que pode incluir formatos como FASTQ e BAM. Isso abre caminho para uma análise bioinformática mais detalhada.
Alinhamento de sequências
Ao realizar o alinhamento de sequências, é possível estabelecer a localização genómica de cada fragmento dentro dos dados de sequenciação do exoma. Isso revela-se inestimável na identificação de regiões de exões, estrutura genética e elementos funcionais. Além disso, o alinhamento de sequências desempenha um papel crucial em vários aspetos, como a deteção de variantes, a facilitação da análise da expressão génica e a avaliação da qualidade dos dados.
Selecionar uma ferramenta de alinhamento apropriada torna-se necessário e é principalmente dependente dos desenhos experimentais e tipos de dados. Ferramentas amplamente utilizadas para este propósito incluem Bowtie2, BWA e STAR. Para dados de sequenciação de DNA, Bowtie2 ou BWA é a escolha típica, enquanto o STAR é frequentemente utilizado para dados de sequenciação de RNA.
Existem algoritmos para o mapeamento de leituras curtas, incluindo a Transformação de Burrows-Wheeler (BWT) e os algoritmos de Smith-Waterman (SW). O Bowtie2 e o BWA são duas ferramentas populares de alinhamento de leituras curtas que implementam o algoritmo BWT (Transformação de Burrows-Wheeler). O MOSAIK, SHRiMP2 e Novoalign são ferramentas importantes de alinhamento de leituras curtas que são implementações do algoritmo SW com maior precisão. Além disso, implementações de multithreading e MPI permitem uma redução significativa no tempo de execução. De todas as ferramentas mencionadas acima, o Bowtie2 destaca-se pelo seu tempo de execução rápido, alta sensibilidade e alta precisão.
Processamento pós-alinhamento
Após a mapeação das leituras, as leituras alinhadas são processadas posteriormente para remover leituras ou alinhamentos indesejados, como leituras que excedem um tamanho definido e duplicados de PCR. Ferramentas como Picard MarkDuplicates e SAMtools podem distinguir duplicados de PCR de materiais de DNA verdadeiros. Subsequentemente, o segundo passo é melhorar a qualidade do alinhamento com lacunas através do realinhamento de indels. Alguns alinhadores (como o Novoalign) e chamadores de variantes (como o GATK HaplotypeCaller) envolvem a melhoria do alinhamento de indels. Após o realinhamento de indels, é recomendado o BQSR (BaseRecalibrator do conjunto GATK) para melhorar a precisão das pontuações de qualidade das bases antes da chamada de variantes.
O processamento pós-alinhamento identifica e filtra efetivamente fragmentos de sequência de baixa qualidade, melhorando assim a usabilidade dos dados e reduzindo a carga computacional em análises subsequentes. Ao otimizar esse processamento pós-alinhamento, a fiabilidade e a consistência dos dados podem ser maximizadas. Este passo fundamental assegura que os resultados de análises bioinformáticas subsequentes sejam mais credíveis.
Chamadas de variantes
A chamada de variantes é um processo crucial na identificação de polimorfismos de nucleotídeo único (SNPs), mutações de inserção-deleção (Indels) e outras variações genómicas, contribuindo significativamente para a descoberta de potenciais variações patogénicas possivelmente relacionadas com doenças. Através da chamada de variantes, os genótipos dos espécimes podem ser avaliados com precisão, categorizando tanto mutações heterozigóticas como homozigóticas. Os resultados da chamada de variantes, portanto, servem como uma base fundamental para a subsequente anotação e filtragem de variantes. Assim, a precisão e a abrangência da chamada de variantes são fundamentais para a totalidade do procedimento analítico.
Software especializado em chamada de variantes, como GATK, Samtools e VarScan, é utilizado nos dados de sequenciação pós-alinhamento para a chamada de variantes. Estas aplicações de software discernem diferenças entre a amostra e o genoma de referência, avaliando estatisticamente as informações de bases em cada locus, gerando posteriormente um conjunto de variantes candidatas.
A análise de variantes é importante para detectar diferentes tipos de variantes genómicas, como SNPs, SNVs, indels, CNVs e SVs maiores, especialmente em estudos de cancro. É vital distinguir variantes somáticas de variantes germinativas. As variantes somáticas estão presentes apenas em células somáticas e são específicas de tecido, enquanto as variantes germinativas são mutações herdadas apresentadas nas células germinativas e estão ligadas à história familiar do paciente. A chamada de variantes é utilizada para identificar SNPs e indels curtos em amostras de exoma. As ferramentas comuns de chamada de variantes estão listadas na Tabela 1. Alguns estudos avaliaram estes chamadores de variantes. Liu et al. recomendaram o GATK, e Bao et al. recomendaram uma combinação de Novoalign e FreeBayes.
Tabela 1. As ferramentas comuns de chamada de variantes.
| Chamadas de variantes | Ferramentas |
|---|---|
| Chamadas de variantes germinativas | GATK, SAMtools, FreeBayes, Atlas2 |
| Deteção de variantes somáticas | GATK, mpileup do SAMtools, chamador de variantes Issac, deepSNV, Strelka, MutationSeq, MutTect, QuadGT, Seurat, Shimmer, SolSNP, jointSNVMix, SomaticSniper, VarScan2, Virmid |
Anotação de variantes
Após a identificação de variantes, estas precisam de ser anotadas para uma melhor compreensão da patogénese da doença. A anotação de variantes geralmente envolve informações sobre coordenadas genómicas, posição do gene e tipo de mutação. Muitos estudos concentram-se nas SNVs não sinónimas e indels no exoma, que representam 85% das mutações conhecidas que causam doenças em desordens mendelianas e uma grande parte das mutações em doenças complexas.
Principalmente, a anotação de mutações inclui a transformação de coordenadas genómicas, a anotação do tipo de mutação, a previsão do impacto funcional, a anotação de genes e vias. A conversão das coordenadas genómicas de uma mutação para um genoma de referência assegura a precisão e a comparabilidade dos resultados da anotação.
As mutações identificadas necessitam de uma anotação adicional por tipo, que pode incluir Polimorfismos de Nucleotídeo Único (SNPs), Inserções/Deleções (Indels), Variações no Número de Cópias (CNVs) e variações estruturais. Determinar os genes e as vias relevantes onde uma mutação é encontrada envolve anotar o impacto da mutação no gene, classificações da função do gene, elementos regulatórios e mais. Comparar os resultados da anotação com bases de dados públicas como ClinVar, dbSNP e OMIM ajuda a obter informações sobre mutações conhecidas. Combinado com informações de bases de dados clínicas, pode-se avaliar ainda mais a significância clínica de uma mutação.
Além da anotação básica, existem muitas bases de dados que podem fornecer informações adicionais sobre as variantes. O ANNOVAR é uma ferramenta poderosa que combina mais de 4.000 bases de dados públicas para anotação de variantes, como dbSNP, 1000 Genomas e dados de sequenciação do exoma do painel de linhas celulares tumorais humanas NCI-60. Esta ferramenta pode ser utilizada para previsão da frequência do alelo menor (MAF), previsão de variantes prejudiciais, indicação da conservação do local mutado, evidência experimental para variantes associadas a doenças e pontuações de previsão do GERP, PolyPhen e outros programas. Outras bases de dados comuns incluem OncoMD, OMIM, SNPedia, 1000 genomas, bdSNP e variantes do genoma pessoal.
A anotação de variantes, ao associar variações com genes conhecidos, áreas funcionais e informações sobre vias metabólicas, ajuda a interpretar o impacto funcional das variações, como alterações na estrutura ou função da proteína. Além disso, as anotações de variantes podem filtrar as variações para identificar candidatos a variações patogénicas, reduzindo assim o âmbito da análise e orientando a priorização de variações potencialmente relacionadas com doenças. Fornecer uma interpretação biológica mais profunda através da anotação da função e impacto das variações ajuda a compreender a relação entre a variante e o fenótipo.
Filtração e priorização de variantes
WES pode gerar milhares de candidatos a variantes. O número pode ser reduzido através da priorização de variantes, para gerar uma lista curta mas prioritária de mutações candidatas para validação experimental adicional. A priorização de variantes envolve três etapas: 1) remoção de chamadas de variantes menos fiáveis; 2) eliminação de variantes comuns (devido à suposição de que variantes raras têm maior probabilidade de causar doenças); 3) priorização de variantes em relação à doença utilizando abordagens baseadas em descoberta e baseadas em hipóteses. As ferramentas disponíveis para filtragem e priorização de variantes incluem VAAST2, VarSifer, KGGseq, PLINK/SEQ, SPRING, ferramenta GUI, Gnome e Ingenuity Variant Analysis.
A anotação de variantes tem como objetivo correlacionar mutações identificadas com genes conhecidos, regiões funcionais e vias metabólicas. Ao fazê-lo, podemos explorar o impacto funcional das variações, por exemplo, se induzem alterações na estrutura ou função da proteína. A anotação de variantes permite a separação de mutações causadoras de doenças do conjunto de variantes identificadas, restringindo assim o âmbito da análise. Este passo ajuda a priorizar mutações potencialmente relacionadas com doenças. Um exame detalhado da função e efeitos dessas variações anotadas oferece uma interpretação biológica mais profunda, facilitando assim a nossa compreensão da ligação entre essas variações e predisposições fenotípicas.
Ao filtrar e priorizar variantes, o processo frequentemente começa com uma fase de controlo de qualidade, onde variantes detectadas que possivelmente resultam de erros de sequenciação ou outros fatores não patogénicos são excluídas. Os critérios de filtragem comuns incluem a profundidade de sequenciação, a qualidade da base e a heterogeneidade. Subsequentemente, é realizada a filtragem de variantes polimórficas comuns.
Filtros adicionais são então aplicados com base no impacto funcional das variantes, como mutações não sinónimas e sinónimas, retendo principalmente aquelas variantes que provavelmente afetam a estrutura e a função da proteína. As variantes são então analisadas em relação aos genes implicados, dando prioridade às variantes que ocorrem em genes conhecidos por estarem associados a doenças. Uma vez que as variantes são filtradas através destes critérios, são classificadas de acordo com a sua probabilidade e potencial patogenicidade, considerando fatores como funcionalidade, localização, frequência e implicações clínicas das variantes. Em última análise, variantes de alta prioridade são selecionadas para processos de validação adicionais, estudos funcionais ou diagnósticos clínicos para estabelecer a sua relevância para doenças e a sua funcionalidade biológica.
A filtragem de variantes pode mitigar variantes falsas positivas introduzidas devido a erros de sequenciação ou analíticos, elevando assim a precisão da chamada de variantes. Ao estabelecer critérios de filtragem rigorosos e priorizar estratégias, variantes potencialmente patogénicas são intencionalmente posicionadas para consideração imediata, acelerando a descoberta de variantes associadas a doenças.
Figura 2. O pipeline envolvendo três fases importantes, nomeadamente, pré-processamento, descoberta de variantes e priorização de variantes. (Meena et al., 2017)
Gestão de Dados
Ao abordar o armazenamento de dados, o vasto volume de dados gerados por tecnologias de Sequenciação de Nova Geração (NGS) pode sobrecarregar soluções de armazenamento tradicionais. Consequentemente, surge a consideração de serviços de armazenamento em nuvem, como o Amazon S3. Estes serviços oferecem uma capacidade de armazenamento quase ilimitada e operam num modelo de pagamento conforme o uso, acomodando flutuações de utilização. Fornecedores comerciais como a Illumina também oferecem serviços de armazenamento de dados em nuvem dentro dos seus ambientes NGS, facilitando o acesso rápido a aberrações genómicas e ajudando no diagnóstico médico.
Para armazenar economicamente os extensos dados de sequenciamento genómico, a compressão dos dados de sequenciamento torna-se uma abordagem viável. Várias técnicas de compressão de dados foram desenvolvidas, incluindo codificação ingênua, compressão baseada em dicionário, métodos estatísticos e compressão de genoma de referência. Por exemplo, o formato CRAM oferece um método de compressão eficiente, reduzindo significativamente o espaço de armazenamento necessário.
Relativamente ao compartilhamento de dados, bases de dados internacionais como o EBI e o NCBI oferecem capacidades para armazenar e aceder a grandes conjuntos de dados. No entanto, à medida que o volume de dados aumenta, a sustentabilidade do compartilhamento de dados torna-se uma preocupação. Além disso, plataformas como o Portal do Genoma do Cancro ICGC e o Oncomine foram estabelecidas para promover o compartilhamento de dados. Estas plataformas apresentam interfaces baseadas na web para pesquisar e visualizar dados genómicos e clínicos, promovendo assim esforços de investigação colaborativa.
Conclusão
Em resumo, a análise bioinformática de sequenciação do exoma completo está atualmente a passar por um período de rápido desenvolvimento, detendo um imenso potencial na investigação genética e nas aplicações clínicas. Com avanços tecnológicos adicionais e melhorias nas metodologias analíticas, antecipamos desvendar mais mistérios das doenças genéticas no futuro, permitindo assim a oferta de intervenções médicas cada vez mais personalizadas para os pacientes.
Se estiver interessado no sequenciação do exoma completo fornecido por CD Genomics, sinta-se à vontade para nos contactar. Oferecemos um pacote completo de serviços de sequenciação do exoma total, incluindo padronização de amostras, captura do exoma, construção de bibliotecas, sequenciação em alta capacidade, controlo de qualidade dos dados brutos e análise bioinformática. Podemos adaptar este fluxo de trabalho ao seu interesse de pesquisa.
Referências:
- Bao R, Huang L, Andrade J, et al. Revisão dos métodos atuais, aplicações e gestão de dados para a análise bioinformática do sequenciamento do exoma completo. Informática do câncer, 2014, 13: CIN. S13779.
- Meena N, Mathur P, Medicherla K M, et al. Um Pipeline de Bioinformática para Sequenciação do Exoma Completo: Visão Geral do Processamento e Passos desde os Dados Brutos até a Análise Posterior. bioRxiv, 2017: 201145.
- Xu H, DiCarlo J, Satya RV, Peng Q, Wang Y. Comparação de métodos de chamada de mutações somáticas em dados de sequenciação de amplicão e exoma completo. BMC Genómica. 2014, 15:244.
- Lelieveld S H, Veltman J A, Gilissen C. Novos desenvolvimentos bioinformáticos para sequenciação de exomas. Genética humana, 2016, 135: 603-614.