Requisitos de Cobertura para Projetos de Sequenciamento de Exoma Completo
Sequenciação do exoma completo (WES) fornece suporte eficiente para a pesquisa de doenças genéticas, tumores e doenças complexas, direcionando e capturando informações sobre variações nas regiões codificadoras de genes (exões). Os requisitos de cobertura precisam ser projetados de forma abrangente com base nos objetivos da pesquisa, tipo de amostra e necessidades clínicas. A seguir, estão os parâmetros chave e as especificações técnicas.
I. Princípios Técnicos e Parâmetros Fundamentais
Tecnologia de Captura de Exões
- Design de Provas: Utiliza provas de RNA ou DNA (como as provas de RNA de 120-mer da Agilent SureSelect) para cobrir principalmente as sequências codificantes (CDS) do genoma (aproximadamente 30 Mb, 1%-2% do genoma), que constituem o núcleo de todo o exoma. Algumas versões estendidas ou "Plus" de kits comerciais de captura (por exemplo, Agilent SureSelect Human All Exon V8) podem incluir adicionalmente regiões não traduzidas (UTRs) (5'UTR/3'UTR) e intrões patogénicos (por exemplo, locais de splicing ou regiões intrónicas associadas a doenças), mas estes não fazem parte da definição padrão de sequenciamento de todo o exoma (WES).
- Eficiência de Captura: A região-alvo deve representar ≥60% de todas as bases alinhadas. Volumes iniciais de amostra baixos (por exemplo, 50 ng de DNA) podem ser preparados utilizando o método da transposase.
Profundidade e Cobertura de Sequenciamento
- Profundidade de Cobertura:
- Variações Germinativas: ≥50x (100x recomendado), valor Q30 ≥90%.
- Mutações Somáticas (Tumores): ≥200x (tecido tumoral), emparelhadas com amostras normais para filtrar variações germinativas.
- Cobertura:
- Variações Germinativas: Recomenda-se alcançar uma profundidade média de sequenciação de ≥100x, com ≥95% das regiões-alvo a atingir uma profundidade de cobertura de ≥20x, para garantir a deteção fiável de variantes homozigóticas e heterozigóticas.
- Mutações de Baixa Frequência (por exemplo, Variantes Somáticas): Recomenda-se uma profundidade de sequenciamento média de ≥200x para aumentar a sensibilidade de deteção de variantes com uma frequência alélica abaixo de 5%.
Indicadores de Qualidade de Dados
- Pontuação Q30: A proporção de bases com uma pontuação de qualidade Q30 nos dados de sequenciação bruta deve ser ≥85% (um limiar comumente aceite na plataforma Illumina). Esta métrica reflete indiretamente a fiabilidade da chamada de bases dos dados primários.
- Penalização FOLD80: ≤ 1,4 (idealmente ≤ 1,2), refletindo a uniformidade da profundidade de cobertura.
- Taxa de Duplicação de PCR: Idealmente, deve ser mantida ≤10%. Uma alta taxa de duplicação pode resultar de material de DNA inicial insuficiente ou de ciclos excessivos de amplificação de PCR, o que reduz a utilização efetiva dos dados de sequenciação.
Cobertura das regiões-alvo em amostras de WES e WGS (Barbitoff YA et al., 2020)
II. Requisitos de Cobertura para Diferentes Cenários de Pesquisa
Deteção de Variação Germinativa
- Objetivo: Variações de nucleótido único (SNVs), inserções/deleções (InDels) e outras mutações relacionadas a doenças genéticas.
- Requisitos Técnicos:
- É necessária uma cobertura de 93% dos genes na base de dados OMIM e 96% dos locais no ClinVar. Para as CNVs do gene DMD, é necessário o design de encriptação de sondas.
- Volume de dados ≥ 10 Gb. Os dados válidos devem abranger a região CDS e regiões patogénicas não codificantes (por exemplo, intrões, UTRs).
Análise de Mutação Somática de Tumor
- Objetivo: Avaliação de SNVs, variações no número de cópias (CNVs) e carga mutacional tumoral (TMB).
- Requisitos Técnicos:
- Amostras de Tumor: Recomenda-se uma profundidade de sequenciação média de ≥200x. Além disso, é essencial incluir uma amostra de tecido normal pareada (por exemplo, tecido normal adjacente ou sangue periférico), com uma profundidade recomendada de ≥100x, para filtrar variantes de fundo germinativo. Durante a análise, a pureza do tumor deve ser considerada para calcular a profundidade de sequenciação efetiva.
- Utilize o algoritmo WES-CNV para detectar grandes fragmentos de CNV, combinado com MLPA ou PCR de longos fragmentos para validação.
Doenças Complexas e Análise de Associação Multigénica
- Objetivo: Identificação de interações multigénicas e mutações patogénicas de baixa frequência.
- Pontos técnicos chave:
- É necessário uma cobertura normalizada (≥0,3), cobrindo ≥80% da região-alvo.
- O sequenciamento de todo o genoma (WGS) é integrado para complementar a informação sobre a variação nas regiões não codificantes.
III. Procedimento Experimental e Controlo de Qualidade
Processamento de Amostras e Construção de Bibliotecas
- Requisitos de DNA: Concentração ≥ 50 ng/μL, pureza OD260/OD280 ≈ 1,8; amostras FFPE requerem avaliação do grau de degradação.
- Método de Construção de Bibliotecas: A construção de bibliotecas por PCR de baixo ciclo assegura homogeneidade; um sistema de hibridação 1:1 é utilizado na fase de captura.
Sequenciação e Análise de Dados
- Seleção de Plataforma: Illumina NovaSeq plataforma, estratégia de sequenciação PE150, volume de dados ≥ 8-10 Gb/amostra.
- Fluxo de Análise:
- Controlo de Qualidade: Recomenda-se um processo de controlo de qualidade em duas etapas para garantir a fiabilidade dos dados: (1) QC de Dados Brutos: Utilize o FastQC para avaliar a distribuição da qualidade das bases, contaminação por adaptadores, conteúdo de GC e sequências sobre-representadas. (2) QC Pós-Alinhamento: Utilize o samtools flagstat para avaliar a taxa de alinhamento; utilize o Picard CollectInsertSizeMetrics e CollectGcBiasMetrics para avaliar a distribuição do tamanho dos inserts e o viés de GC; utilize o Picard MarkDuplicates para calcular a taxa de duplicação por PCR; utilize o Qualimap ou mosdepth para uma avaliação abrangente da profundidade de cobertura e uniformidade nas regiões alvo.
- Deteção de Variação: O GATK HaplotypeCaller identifica SNVs/InDels; o CNVkit ou o Control-FREEC detetam CNVs.
Anotação e Filtragem de Variantes
- Integração de Bases de Dados: ClinVar, OMIM, gnomAD, etc., combinadas com as diretrizes da ACMG para classificação de patogenicidade (P/LP/VUS/LB/B).
- Filtragem de Falsos Positivos: Sequenciação Sanger para verificar resultados positivos, qPCR ou MLPA para confirmar CNVs.
A modelagem da cobertura de CDS identifica os principais determinantes da uniformidade da cobertura (Barbitoff YA et al., 2020)
IV. Amostras Especiais e Desafios Técnicos
Processamento de Amostras FFPE
- Avaliação da Qualidade do DNA: O tamanho dos fragmentos deve ser detetado utilizando o Bioanalisador Agilent. Se a degradação for ≥30%, o número de ciclos de amplificação deve ser aumentado.
- Otimização da Construção de Bibliotecas: Utilize um protocolo com uma quantidade inicial baixa (50 ng de DNA) e otimize as condições de amplificação da biblioteca.
Análise de Micro Amostras
- Esfregaços de Sangue Seco Neonatal: Utilize o método Transposase para a construção da biblioteca (por exemplo, Illumina Nextera), com uma quantidade mínima de ADN ≤50 ng.
- Estudos de Heterogeneidade Tumoral: Requer amostragem multi-região, combinada com tecnologia de etiquetagem molecular UMI para reduzir o viés de amplificação.
Captura de Região Complexa
- Regiões de Alto GC: Utilize design de sondas de extremidade emparelhada ou aumente a densidade de sondas, combinado com a construção de bibliotecas sem PCR para reduzir o viés de GC.
- Interferência de Pseudogenes: Encriptar sondas para cobrir sequências expressas diferencialmente, combinadas com sequenciação de longas leituras (por exemplo, PacBio) para verificar variações estruturais.
V. Profundidade da Análise de Dados e Aplicação Clínica
Estratégias de Anotação e Filtragem de Variações
- Anotação Funcional: Integração de bases de dados como ClinVar, OMIM e gnomAD, combinando com as diretrizes da ACMG para a classificação de patogenicidade (P/LP/VUS/LB/B).
- Filtragem de Falsos Positivos: Verificação de resultados positivos através de sequenciação Sanger ou qPCR para reduzir a taxa de diagnósticos falsos.
Detalhes Técnicos da Detecção de CNV
- Seleção de Algoritmo: XHMM ou CNVkit é recomendado para CNVs a nível de exão. Fragmentos de CNV grandes (>1 Mb) são validados usando dados de WGS ou MLPA.
- Análise Específica do Tumor: Cálculo da razão entre o número de cópias de tumor/tecido normal, filtragem de polimorfismos germinativos (por exemplo, frequência >5%) e identificação de regiões de LOH (perda de heterozigosidade).
Visualização de Dados e Relatórios
- Análise Interativa do IGV: Geração de mapas de profundidade de cobertura e mapas de distribuição de locais de variantes, suportando comparações multi-amostra (por exemplo, análise de co-segregação familiar).
- Modelo de relatório: Classificar de acordo com as diretrizes da ACMG (patogenicidade/patogenicidade provável/significado incerto), com métodos de validação (por exemplo, Sequenciação de Sanger) e recomendações de aconselhamento genético.
VI. Gestão de Ética e Conformidade
Gestão de Recursos Genéticos Humanos
- Coleta de Amostras: É necessário consentimento informado, especificando a utilização pretendida (por exemplo, investigação/clínica). As amostras enviadas externamente devem ser registadas no Ministério da Ciência e Tecnologia.
- Armazenamento de Dados: Dados brutos (FASTQ) devem ser encriptados e armazenados por ≥2 anos. A transferência transfronteiriça é proibida, e a conformidade com os "Regulamentos sobre a Gestão de Recursos Genéticos Humanos" é obrigatória.
Certificação de Controlo de Qualidade
- Qualificação do Laboratório: É necessária acreditação CAP/CLIA e participação regular em avaliações de qualidade interlaboratorial.
- Validação por Terceiros: Resultados chave (por exemplo, mutações patogénicas) devem ser reavaliados por instituições independentes para garantir a precisão.
VIII. Análise de Caso
Requisitos de Cobertura
Os requisitos de cobertura para WES no estudo de LaDuca H et al. foram principalmente baseados na profundidade de cobertura de sequência, especificamente definidos da seguinte forma:
- Profundidade de deteção suficiente: Refere-se, geralmente, a uma profundidade de sequenciação ≥10 vezes (ou seja, a posição é sequenciada pelo menos 10 vezes) para garantir a fiabilidade da deteção de variantes.
- Cobertura parcial: Todas as variantes patogénicas têm cobertura parcial em pelo menos uma sequência de exon (ou seja, pelo menos uma leitura de sequenciamento cobre a posição).
- Outras métricas de profundidade: Uma percentagem média de cobertura de bases ≥10 vezes é de 94,8% (intervalo de 92,9–96,0%), com uma profundidade média por amostra de 94 vezes (intervalo de 80X–114X); 98% da cobertura de bases >20X, 48% da cobertura >100X, e não há bases completamente descobertas.
Resultados de Cobertura
Através da análise de cobertura de 1533 variantes patogénicas (de 91 genes, envolvendo 5 doenças genéticas) em 100 clínicas WES amostras e validação na base de dados ExAC de 60.706 exões, os principais resultados são os seguintes:
1. Sensibilidade Geral de Detecção
- Num total de 153.300 avaliações (1.533 variantes × 100 amostras), 99,7% das avaliações alcançaram uma profundidade de cobertura de ≥10x (ou seja, 152.798/153.300).
- Do ponto de vista dos variantes individuais, 97,3% dos variantes (1.491/1.533) atingiram uma profundidade de cobertura de ≥10x em todas as 100 amostras.
- Todas as variantes patogénicas tiveram pelo menos cobertura parcial (sem casos de descoberta completa).
2. Diferenças Entre Categorias de Doenças
- Marfan/Aneurisma Aórtico (TAAD): 99,8% das variantes patogénicas foram suficientemente detectáveis (mais elevado).
- Deficiência intelectual ligada ao cromossoma X (XLID): 98,5% das variantes patogénicas foram detectáveis (mais baixo), e a proporção de cobertura adequada em todas as 100 amostras foi de 73,9% (mais baixo), possivelmente devido ao pequeno tamanho da amostra (apenas 23 variantes patogénicas) e ao menor número de alelos no cromossoma X único masculino.
- Displasia ciliar primária (PCD): A maior proporção de cobertura adequada em todas as 100 amostras (98,2%).
3. Cobertura Inadequada
- 2,7% das variantes patogénicas (42/1.533) tinham <10X de cobertura em pelo menos uma amostra de WES.
- Possíveis razões para cobertura inadequada: 26,2% estavam localizados em regiões ricas em GC (GC>60%), 19,0% em regiões repetitivas (cadeias poliméricas ≥9 bp), 7,1% em regiões de interferência de pseudogenes; 47,6% não tinham uma explicação clara.
- Exemplo típico: A variante de pseudogene altamente homóloga (c.325DELG) no gene PMS2 foi detectada em apenas 35/100 amostras.
4. Resultados de Validação (Base de Dados ExAC)
- A avaliação de 60.706 exões na base de dados gnomAD revelou que aproximadamente 98,6% dos locais avaliados atingiram uma profundidade de cobertura suficiente (≥10x).
- 86,2% das variantes patogénicas (1.321/1.533) foram detectáveis em ≥99% (60.099/60.706) das amostras.
5. Validação da Detecção Real
- Na base de dados interna, todos os 16 pacientes (21 variantes patogénicas) que foram submetidos a testes de painel direcionado foram detetados com sucesso por WES.
VII. Integração de Tecnologias de Ponta e Tendências Futuras
Integração de Sequenciamento de Longa Leitura
- Cenários de Aplicação: Análise de variações estruturais complexas (por exemplo, translocações balanceadas, amplificação de duplicações), complementando as limitações do sequenciamento de leituras curtas.
- Avanços Tecnológicos: O Oxford Nanopore a plataforma permite sequenciação em tempo real, suportando a deteção direta de modificações de metilação.
WES de Célula Única
- Cenários de Aplicação: O WES é principalmente utilizado para analisar variantes somáticas de baixa frequência (por exemplo, amplificações subclonais em leucemias) e acompanhar a evolução clonal através da genómica comparativa de tecidos tumorais e normais. Por exemplo, o WES pode detectar mutações driver (por exemplo, EGFR, KRAS) e variantes estruturais (por exemplo, fusões RUNX1-RUNX1T1) com frequências alélicas tão baixas quanto 0,1%, permitindo estudos de heterogeneidade intratumoral e trajetórias evolutivas.
- Desafios Técnicos: Otimização da eficiência de captura de células únicas (por exemplo, utilizando a plataforma 10x Genomics) e suplementação de variantes de regiões não codificantes utilizando WGS.
Análise Assistida por IA
- Priorização de Variantes: Modelos de aprendizagem profunda, como o AlphaMissense, podem prever a patogenicidade de mutações missense, fornecendo evidências computacionais de suporte (PP3) dentro das diretrizes ACMG/AMP. Embora as suas previsões não possam servir como uma base independente para determinar a patogenicidade, funcionam como poderosas ferramentas de triagem e priorização. Estas ferramentas ajudam os investigadores a concentrar-se rapidamente em locais candidatos de alto risco a partir de um vasto número de variantes de significado incerto (VUS), aumentando assim a eficiência da interpretação manual.
- Geração Automática de Relatórios: Integração de Processamento de Linguagem Natural (PLN) para gerar automaticamente relatórios clínicos em conformidade.
Resumo
- Os requisitos de cobertura de sequenciação do exoma completo precisam de otimização em várias dimensões: processamento de amostras, análise de dados, gestão ética e integração tecnológica.
- Nível de Amostra: Desenvolvimento de soluções personalizadas para a construção de bibliotecas para FFPE e micro-amostras para melhorar a uniformidade de cobertura com volumes iniciais baixos.
- Nível de Análise: Combinação da deteção de CNV, associação fenotípica e ferramentas de IA para melhorar a aplicabilidade clínica dos resultados.
- Nível de Gestão: Reforçar a revisão ética e a segurança dos dados para garantir a conformidade com os requisitos regulamentares.
No futuro, com a popularização do sequenciamento de leituras longas e das tecnologias de IA, o WES desempenhará um papel mais central na medicina de precisão, especialmente no campo da análise de mecanismos de doenças complexas e monitorização dinâmica.
As pessoas também perguntam
Qual é a cobertura do sequenciamento do exoma completo?
A cobertura típica para o sequenciamento do exoma completo clínico é de 100x a 200x, o que garante uma deteção precisa de variantes.
O que significa cobertura de 30X em sequenciação?
Isso significa que o genoma foi sequenciado uma média de 30 vezes para detectar variantes genéticas de forma fiável.
Como calcular a cobertura em sequenciação?
Podemos usar a cobertura como o número médio de ocorrências e y como o número exato de vezes que uma base é sequenciada, e depois calcular a probabilidade de isso acontecer: P(Y=3) = (6.33 × e-6.3)/3! = 0.077 Claro que este é o valor para exatamente 3.
Qual é a profundidade de sequenciação recomendada para 10X?
Normalmente, recomendamos uma profundidade de sequenciação entre 30.000 e 70.000 leituras por célula para projetos de 10x Genomics. Agende uma chamada com um dos nossos especialistas para discutir as suas opções.
O que é a amplitude e a profundidade da cobertura?
A amplitude da cobertura refere-se à proporção do genoma sequenciado pelo menos uma vez, enquanto a profundidade da cobertura é o número médio de vezes que cada base no genoma é sequenciada.
Qual é a profundidade do sequenciamento do exoma?
Em resumo, com a técnica de sequenciação por captura de exoma, as variações clínicas mais significativas podem ser detetadas a uma profundidade média de 120×.
Qual é a diferença entre 10x v3 1 e v4?
Em 2024, a 10x Genomics introduziu a química v4. A estrutura da biblioteca da v4 é exatamente a mesma que a da v3 e v3.1. No entanto, a química v4 utiliza um conjunto diferente de códigos de barras celulares (clique aqui para ver mais detalhes) e tem uma melhor recuperação celular e sensibilidade (número de genes detectados por célula) em comparação com a v3 e v3.
Referências:
- Barbitoff YA, Polev DE, Glotov AS, Serebryakova EA, Shcherbakova IV, Kiselev AM, Kostareva AA, Glotov OS, Predeus AV. Dissecação sistemática de preconceitos em sequenciação de exoma completo e sequenciação de genoma completo revela principais determinantes da cobertura da sequência codificadora.. Relatórios Científicos. 2020 Fev 6;10(1):2057.
- LaDuca H, Farwell KD, Vuong H, Lu HM, Mu W, Shahmirzadi L, Tang S, Chen J, Bhide S, Chao EC. O sequenciamento do exoma abrange >98% das mutações identificadas em painéis de sequenciamento de próxima geração direcionados.. PLoS One. 2017 Fev 2;12(2):e0170843.