Sequenciação do exoma completo (WES) visa aproximadamente 1-2% das regiões codificadoras de proteínas (exões) no genoma, detetando cerca de 85% das variantes patogénicas. No entanto, a fiabilidade dos seus dados depende fortemente de procedimentos rigorosos de controlo de qualidade. Os seguintes são pontos-chave de controlo de qualidade com base em procedimentos experimentais e na literatura.
I. Amostra e Controlo de Qualidade do DNA
Coleta e Preservação de Amostras
- Tipos de amostras: Sangue (tubos com anticoagulante EDTA recomendados), tecido (requer congelamento rápido ou preservação em RNAlater).
- Condições de Preservação: Curto prazo (4℃, ≤7 dias); Longo prazo (-80℃, evitar ciclos repetidos de congelação-descongelação).
- Precauções: Evitar contaminação por nucleases; amostras de tecido requerem homogeneização mecânica ou digestão enzimática (por exemplo, digestão com Proteinase K).
Extração de DNA e Controlo de Qualidade
- Métodos de extração: método fenol-clorofórmio (alta pureza), método de esferas magnéticas (automatizado), kit Qiagen (grau clínico).
- Indicadores de Controlo de Qualidade:
- Concentração: ≥50 ng/μL (requisito mínimo para a construção da biblioteca), PCR quantitativa Qubit 4.0 recomendada.
- Pureza: A260/A280 = 1,8-2,0 (sem contaminação por proteínas), A260/A230 > 2,0 (sem resíduos de sal).
- Integridade: A eletroforese em gel de agarose mostra uma banda principal ≥10 kb (sem degradação significativa), valor RIN ≥8.0 (amostras de interferência de RNA requerem testes adicionais).
Fragmentação de DNA
- Fragmentação Física: Sonicação Covaris S220 (tamanho do fragmento 50-200 bp, CV <5%).
- Digestão Enzimática: NEBNext Fragmentase (adequado para amostras FFPE), é necessário otimizar o tempo de reação para evitar a sobre-fragmentação.
II. Construção de Biblioteca e Otimização da Eficiência de Captura
Ligação e Amplificação de Adaptadores
- Design de Adaptador: Illumina TruSeq (com marcadores de códigos moleculares) ou Agilent SureSelect (com bloqueador para prevenir a dimerização do adaptador).
- Condições de Amplificação: KAPA HiFi HotStart ReadyMix (baixo viés de GC), ≤12 ciclos (para evitar viés de PCR).
Captura de Exões
- Design de Provas: Agilent SureSelect XT (cobre exões ±50 bp), IDT xGen (provas personalizadas).
- Condições de Captura:
- Temperatura de Hibridação: 65℃ (alta stringência), tempo ≥16 horas.
- Condições de Eluição: Lavagem de esferas magnéticas (buffer de baixo teor de sal para remover ligações não específicas).
- Controlo de Qualidade Pós-Captura:
- Cobertura Alvo: ≥70% (padrão clínico), validado utilizando o Assay SeqCap EZ (Roche).
- Reproduzibilidade: ≤5% (Deteção de Duplicados Picard Mark).
III. Sequenciação e Controlo de Qualidade dos Dados Brutos
Seleção da Plataforma de Sequenciamento
- Illumina NovaSeq 6000: Comprimento recomendado para leitura pareada de 150 bp (PE150), volume de dados de amostra única ≥50 Gb (profundidade de cobertura ≥100×).
- HiSeq 4000: Custo mais baixo, mas comprimento de leitura mais curto (PE125), adequado para projetos com orçamentos limitados.
Filtragem de Dados Brutos
- Análise FastQC:
- Conteúdo de GC: A faixa normal para o genoma humano é de 40-60%. Flutuações anormais indicam contaminação ou viés da biblioteca.
- Bases de Baixa Qualidade: Bases com um valor Q de cauda <20 precisam ser podadas (parâmetros do Trimmomatic: LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15).
- Contaminação de Adaptadores: Identificar e eliminar automaticamente usando o Fastp (parâmetro: --adapter_sequence AGATCGGAAGAGC).
- Contaminação por PhiX: Se a proporção for >0,1%, é necessário re-sequenciamento (detecção Kraken2, comprimento do k-mer = 31).
Fluxo de trabalho para análise de dados (Yin Y et al., 2019)
IV. Controlo de Qualidade da Alinhamento e Detecção de Variantes
Alinhamento de Sequências
- Seleção de Ferramentas: BWA-MEM (parâmetros padrão, adequado para inserções longas), Bowtie2 (baixo consumo de memória).
- Genoma de referência: hg38 (recomendado) ou hg19 (preste atenção à compatibilidade de versões).
- Controlo de Qualidade Pós-Alinhamento:
- Taxa de Mapeamento: ≥95% (os valores atípicos requerem verificação de contaminação da amostra ou falhas no design da sonda).
- Distribuição de Inserções: Mediana de 200-400 pb (plataforma Illumina), desvios indicam anomalias na estrutura da biblioteca.
Fluxo de Detecção de Variantes
- Melhores Práticas do GATK:
- Marcação de Duplicados: Picard MarkDuplicates (parâmetro: REMOVE_DUPLICATES=true).
- Correção de Base: BaseRecalibrator (treinado usando os conjuntos de dados 1000G e Mills).
- Chamada de Variantes: HaplotypeCaller (-ERC modo GVCF, análise conjunta de múltiplas amostras).
- Critérios de Filtragem:
- SNV: QD≥2.0, FS>60.0, MQRankSum≥-12.5.
- Indel: QD≥2.0, ReadPosRankSum≥-20.0.
- Notas Funcionais: ANNOVAR (Bases de Dados: RefSeq, ClinVar, COSMIC).
V. Controlo de Qualidade Avançado e Visualização
Análise da Profundidade da Cobertura
- Ferramentas: GATK DepthOfCoverage, IGV (visualização do mapa de calor de cobertura).
- Normas:
- Diagnóstico Clínico: Região alvo ≥20× cobertura ≥95%, região não alvo ≤5×.
- Investigação de Tumores: As mutações somáticas devem ter ≥5% de AF (frequência alélica) e as variações germinativas devem ser excluídas.
Controlo de Contaminação
- Contaminação Inter-amostral: VerifyBAMID (limite ≤0,1%), ContEst (baseado na frequência populacional).
- Contaminação de Reagentes: Controlo PhiX, deteção de controlo sem template (NTC).
Ferramentas de Visualização
- IGV: Examina o contexto da sequência em torno dos locais de variantes (como elementos repetitivos e locais de splicing).
- MultiQC: Integra relatórios do FastQC, BWA e GATK para gerar um gráfico de visão geral do controlo de qualidade.
VI. Problemas Comuns e Soluções
| Problema |
Causa |
Solução |
| Cobertura de Região de Alvo Baixa |
Baixa eficiência de hibridização de sondas |
Otimize as condições de hibridação (estender para 24 horas) ou aumente a entrada de DNA para 100 ng. |
| Viés de Alta Estrutura |
Viés de amplificação por PCR |
Utilize etiquetas de códigos de barras moleculares ou ajuste os parâmetros do BWA (por exemplo, -X 500) |
| Variantes Falsas Positivas |
Leituras de baixa qualidade ou erros de sequenciação |
Aplique critérios de filtragem mais rigorosos (por exemplo, SAV ≥ 0,2) e valide com sequenciação Sanger. |
| Efeitos de Lote |
Condições experimentais inconsistentes |
Analise lotes em conjunto ou aplique correção de lotes (por exemplo, ComBat em R) |
VII. Aplicação Clínica e Conformidade
Interpretação de Relatório
- Diretrizes ACMG: Classificação de Patogenicidade (Patogénico, Possivelmente Patogénico, Significado Indeterminado, etc.).
- Validação Familiar: Sequenciação de Sanger confirma variantes do probando; amostras parentais são testadas para padrões de herança.
Ética e Privacidade
- Consentimento Informado: Informar claramente o indivíduo sobre o âmbito dos testes e a estratégia de manuseio para descobertas inesperadas (por exemplo, mutações BRCA1).
- Segurança de Dados: Os dados brutos são encriptados e armazenados (em conformidade com os padrões HIPAA/GDPR).
VIII. Referências e Ferramentas
Referências Principais
- T/CHIA 21.2-2021 (Padrão de Controlo de Qualidade de Sequenciamento de Exoma da China)
- Melhores Práticas GATK (Instituto Broad)
Ferramentas Recomendadas
- Controlo de Qualidade: FastQC, MultiQC, Picard
- Alinhamento: BWA-MEM, Bowtie2
- Anotações: ANNOVAR, VEP, SnpEff
IX. Controlo de Qualidade em Casos Práticos
WES Controlo de Qualidade em VITT
Processamento e Análise de Dados
- Alinhamento: Alinhamento BWA de leituras ao genoma hg19; visualização IGV para verificações de qualidade.
- Chamada de Variação: Chamador de haplótipos GATK para identificação de variantes; script R para calcular cobertura e profundidade.
- Triagem: Remoção de variantes não funcionais (incluindo subtipos e missense); retenção de SNVs/Indels raros com MAF <0,01; foco em genes de vias-alvo (coagulação, ativação plaquetária, etc.).
- Avaliação de Patogenicidade: 7 ferramentas (PROVEAN, etc.) + classificação das diretrizes ACMG (VUS/LP/P).
Consistência de Dados
O número total de variantes (mais de 140.000), a proporção de variantes raras (1619–1774) e a distribuição dos tipos (incluindo subtipos de 38%–42%, etc.) foram semelhantes entre os 6 pacientes. A cobertura foi calculada utilizando um script unificado para garantir a reprodutibilidade.
Ética e Independência
Com a aprovação do comité de ética (Declaração de Helsínquia), três especialistas legais cegos avaliaram independentemente o caso de acordo com o padrão Pavord (Giusti B et al., 2024).
Controlo de Qualidade do WES para Família Chinesa com Câncer Concurrente
Controlo de Qualidade de Amostras e DNA
- Tecido Tumoral: >200mg, congelado em nitrogênio líquido/-80°C; tratado com FFPE (fixação a 4% de formaldeído, incorporação em parafina, seccionamento a 4μm), examinado independentemente por dois patologistas (confirmando malignidade e excluindo metástase).
- Sangue Periférico: 5ml, DNA extraído utilizando o kit QIAamp DNA Mini.
- Quantificação de DNA: Corte sonicado para ~350bp, purificado com AMPure XP, distribuição do tamanho das partículas analisada usando um Agilent 2100.
Preparação de Biblioteca e Controlo de Qualidade de Sequenciação
- Construção de Biblioteca: Captura de exões utilizando Agilent SureSelect Human All ExonV5 (0,5μg de DNA de entrada), polimento de extremidades/adicionamento de A/ligação de adaptadores, seguido de amplificação por PCR KAPA HiFi HotStart.
- Quantificação da Biblioteca: Método PCR do kit KAPA (curva padrão), concentração de trabalho de 3 nM.
- Sequenciação: Plataforma de fluxo de iões, sequenciação de extremidades de 100pb.
Controlo de Qualidade de Processamento e Análise de Dados
- Filtragem de Dados: Remover leituras de baixa qualidade (com adaptadores, N>10%, etc.), mapeamento BWA para hg19, Picard+GATK v3.2 para deduplicação/re-alinhamento/calibração de base.
- Anotação de Variação: Anotar SNVs com GATK v3.0 (QD>2.0 é "bom"); ANNOVAR referencia os bancos de dados 1000 Genomes/dbSNP/CGC, anotando a função/tipo de exon/mudanças de aminoácidos.
- Critérios de Filtragem: Remover leituras com qualidade <20, MAF>0,005, e variantes sinónimas; reter variantes missense em exões/lugares de splicing.
- Cobertura: Profundidade média 58 vezes, ≥82,08% dos exões com cobertura >10 vezes, razão de transições/transversões 2,2–2,4 (normal).
Validação da Consistência dos Dados
- Distribuição de Variação: O Varscan2 v2.3.9 identificou mutações somáticas e analisou em cruz genes comuns (por exemplo, NDUFS7); a triagem de mutações germinativas identificou variantes partilhadas por pacientes que não afetaram indivíduos (16 genes, 17 SNVs).
- Reproduzibilidade: Pontuação de qualidade da amostra >20, procedimentos padronizados, distribuição consistente do tipo de variante.
Ética e Independência
- Ética: Aprovado pelo comitê de ética, de acordo com a Declaração de Helsínquia; consentimento informado por escrito do paciente.
- Independência: Dois patologistas examinaram independentemente o tecido tumoral para evitar viés diagnóstico (Yin Y et al., 2019).
Fluxo de trabalho para a identificação de mutações germinativas (Yin Y et al., 2019)
Controlo de Qualidade WES para Detecção de Variações Mitocondriais em Centenas de Milhares de Indivíduos
Pré-processamento de Dados e Filtragem de Variância
Sequenciação do exoma (415.000 amostras) e dados de genotipagem de array (784.000 SNPs) foram combinados. Variantes de baixa qualidade foram filtradas: a nível de variante (taxa de deleção >10%, variantes singulares, número de alelos menores <6) e a nível de amostra (taxa de deleção >10%) foram excluídas. 6.767.000 variantes foram retidas (autossómicas + cromossoma X, MAF ≥ 0,001).
Covariáveis e Controlo de Confusão
Idade, sexo, 40 componentes principais (CPs), e WES os efeitos de lote foram ajustados. Uma matriz de relação genética (GRM) foi construída usando BOLT-LMM. Para GRMs esparsos, os coeficientes de parentesco <0,0442 foram definidos como 0.
Análise de Variância e Rigor Estatístico
- Análise de variante única: a associação foi detetada utilizando BOLT-LMM, foi realizada estratificação do cromossoma X, e foram utilizados estatísticas de pooling METAL. A análise de poder foi realizada usando o pacote genpwr.
- Agregação de variantes raras: O pacote GENESIS testou 9 combinações (nocivas: todas não sinónimas/CADD≥18/pLoF; frequência: MAF≤1%/0,1%/0,01%), com uma frequência alélica cumulativa ≥0,01%, incluindo variantes com MAC<6; a correlação do valor p resultou em 4 clusters, com uma taxa de deteção efetiva de 18,557 genes × 4 clusters, e um limiar de 0,05/(18,557 × 4).
- Verificação de robustez e independência:
- Ao nível do gene: O método leave-one-out e a análise condicional foram utilizados para avaliar o sinal; a enriquecimento de conjuntos de genes foi realizada utilizando um conjunto de 33.750 genes do MitoCarta et al., teste t, exclusão de valores extremos e correção de Bonferroni (FWER 1,5 × 10⁻⁶).
Associação Fenotípica e Correção de Testes Múltiplos
PheWAS: PheWAS inclui a agregação de fenótipos ICD10, restringindo indivíduos irrelevantes + ancestralidade britânica caucasiana, regressão logística para ajustar covariáveis; simpleM calcula testes eficazes em 1.530, correção de Bonferroni (p≤3.0×10⁻⁶); análise de randomização mendeliana para causalidade (por exemplo, SAMHD1-mtDNA-CN e cancro da mama) (Pillalamarri V et al., 2022).
Foi descoberta uma única variante significativamente associada ao DNA mitocondrial-CN (Pillalamarri V et al., 2022).
Resumo
Controlo de qualidade de sequenciação do exoma completo (WES) é um projeto sistemático multidimensional, dinamicamente otimizado, que precisa ser implementado ao longo de todo o ciclo de vida do design experimental, execução e análise de dados. Operações padronizadas, inovação tecnológica e colaboração interinstitucional podem melhorar significativamente a sensibilidade e especificidade da deteção, proporcionando uma base sólida para o diagnóstico de doenças genéticas, tratamento oncológico de precisão e desenvolvimento de medicamentos. Os laboratórios devem monitorizar continuamente as atualizações das diretrizes internacionais e promover a tradução da tecnologia WES da pesquisa para aplicações clínicas.
As pessoas também perguntam
Qual é o valor QV na sequenciação?
Durante o processo de sequenciação, um valor de qualidade (QV), também conhecido como pontuação de qualidade na literatura, é atribuído a cada nucleótido numa leitura. Estes valores de qualidade expressam a confiança de que o nucleótido correspondente foi lido corretamente.
Como analisar dados de sequenciação do exoma completo?
Um fluxo de trabalho típico de Análise WES inclui estas etapas: controlo de qualidade dos dados brutos, pré-processamento, alinhamento de sequências, processamento pós-alinhamento, chamada de variantes, anotação de variantes e filtragem e priorização de variantes.
Qual é a saída de dados do sequenciamento do exoma completo?
A saída de dados do sequenciamento do exoma completo consiste tipicamente em leituras de sequenciamento de alto rendimento (em formato FASTQ) e um ficheiro de chamada de variantes processado (VCF) contendo variantes genéticas identificadas nas regiões codificantes de proteínas do genoma.
Outro nome para sequenciação do exoma completo é sequenciação do exoma total.
A sequenciação do exoma, também conhecida como sequenciação do exoma completo (WES), é uma técnica genómica para sequenciar todas as regiões codificantes de proteínas dos genes em um genoma (conhecidas como exoma).
O que não pode ser detetado pela sequenciação do exoma completo?
Podem existir variantes funcionais em regiões não codificantes que regulam a expressão génica, como os potenciadores e os longos RNAs não codificantes. No entanto, estas variantes não codificantes (VNCs), mesmo que geneticamente identificáveis, não são abrangidas pelo WES e, portanto, não podem ser detetadas.
Quais são as descobertas secundárias na sequenciação do exoma completo?
O que são Descobertas Secundárias na Sequenciação do Exoma Total? Uma descoberta secundária é uma variação que pode contribuir para a doença, mas não é a causa da condição atual do paciente. As descobertas secundárias são encontradas em até 5 em cada 100 (5%) pacientes que optam por realizar a Sequenciação do Exoma Total.
O que é a análise de trio no sequenciamento do exoma completo?
O Sequenciamento do Exoma Completo (WES), Análise Trio, é um teste molecular que captura dados de todo o exoma com cobertura adicional para genes com associações conhecidas a doenças mendelianas, para ajudar a identificar a causa genética subjacente da condição médica inexplicada do paciente.
Referências:
-
Sealock JM, Ivankovic F, Liao C, Chen S, Churchhouse C, Karczewski KJ, Howrigan DP, Neale BM. Tutorial: diretrizes para filtragem de qualidade de dados de sequenciação de exoma completo e genoma completo para análises de associação em escala populacional. Nat Protoc. Set 2025;20(9):2372-2382.
- Belova V, Pavlova A, Afasizhev R, Moskalenko V, Korzhanova M, Krivoy A, Cheranev V, Nikashin B, Bulusheva I, Rebrikov D, Korostin D. Análise do sistema da qualidade de sequenciação de amostras de exoma completo humano na plataforma NGS da BGI. Relatórios Científicos2022 Jan 12;12(1):609.
- Giusti B, Sticchi E, Capezzuoli T, Orsi R, Squillantini L, Giannini M, Suraci S, Rogolino AA, Cesari F, Berteotti M, Gori AM, Lotti E, Marcucci R. Sequenciação do Exoma Completo na Trombocitopénia Tromboica Induzida por Vacina (VITT). Pesquisa Biomédica Internacional. 2024 Jul 14;2024:2860547.
- Yin Y, Wu S, Zhao X, Zou L, Luo A, Deng F, Min M, Jiang L, Liu H, Wu X. Estudo de sequenciação do exoma completo de uma família chinesa com câncer concurrente. Oncol Lett. Set 2019;18(3):2619-2627.
- Pillalamarri V, Shi W, Say C, Yang S, Lane J, Guallar E, Pankratz N, Arking DE. O sequenciamento do exoma completo em 415.422 indivíduos identifica variantes raras associadas ao número de cópias do DNA mitocondrial.. HGG Adv. 26 de setembro de 2022;4(1):100147.