Requisitos de Cobertura para Projetos de Sequenciamento de Exoma Completo

Sequenciação do exoma completo (WES) fornece suporte eficiente para a pesquisa de doenças genéticas, tumores e doenças complexas, direcionando e capturando informações sobre variações nas regiões codificadoras de genes (exões). Os requisitos de cobertura precisam ser projetados de forma abrangente com base nos objetivos da pesquisa, tipo de amostra e necessidades clínicas. A seguir, estão os parâmetros chave e as especificações técnicas.

I. Princípios Técnicos e Parâmetros Fundamentais

Tecnologia de Captura de Exões

  • Design de Provas: Utiliza provas de RNA ou DNA (como as provas de RNA de 120-mer da Agilent SureSelect) para cobrir principalmente as sequências codificantes (CDS) do genoma (aproximadamente 30 Mb, 1%-2% do genoma), que constituem o núcleo de todo o exoma. Algumas versões estendidas ou "Plus" de kits comerciais de captura (por exemplo, Agilent SureSelect Human All Exon V8) podem incluir adicionalmente regiões não traduzidas (UTRs) (5'UTR/3'UTR) e intrões patogénicos (por exemplo, locais de splicing ou regiões intrónicas associadas a doenças), mas estes não fazem parte da definição padrão de sequenciamento de todo o exoma (WES).
  • Eficiência de Captura: A região-alvo deve representar ≥60% de todas as bases alinhadas. Volumes iniciais de amostra baixos (por exemplo, 50 ng de DNA) podem ser preparados utilizando o método da transposase.

Profundidade e Cobertura de Sequenciamento

  • Profundidade de Cobertura:
    • Variações Germinativas: ≥50x (100x recomendado), valor Q30 ≥90%.
    • Mutações Somáticas (Tumores): ≥200x (tecido tumoral), emparelhadas com amostras normais para filtrar variações germinativas.
  • Cobertura:
    • Variações Germinativas: Recomenda-se alcançar uma profundidade média de sequenciação de ≥100x, com ≥95% das regiões-alvo a atingir uma profundidade de cobertura de ≥20x, para garantir a deteção fiável de variantes homozigóticas e heterozigóticas.
    • Mutações de Baixa Frequência (por exemplo, Variantes Somáticas): Recomenda-se uma profundidade de sequenciamento média de ≥200x para aumentar a sensibilidade de deteção de variantes com uma frequência alélica abaixo de 5%.

Indicadores de Qualidade de Dados

  • Pontuação Q30: A proporção de bases com uma pontuação de qualidade Q30 nos dados de sequenciação bruta deve ser ≥85% (um limiar comumente aceite na plataforma Illumina). Esta métrica reflete indiretamente a fiabilidade da chamada de bases dos dados primários.
  • Penalização FOLD80: ≤ 1,4 (idealmente ≤ 1,2), refletindo a uniformidade da profundidade de cobertura.
  • Taxa de Duplicação de PCR: Idealmente, deve ser mantida ≤10%. Uma alta taxa de duplicação pode resultar de material de DNA inicial insuficiente ou de ciclos excessivos de amplificação de PCR, o que reduz a utilização efetiva dos dados de sequenciação.

Coverage of target regions across WES and WGS samples. Cobertura das regiões-alvo em amostras de WES e WGS (Barbitoff YA et al., 2020)

II. Requisitos de Cobertura para Diferentes Cenários de Pesquisa

Deteção de Variação Germinativa

  • Objetivo: Variações de nucleótido único (SNVs), inserções/deleções (InDels) e outras mutações relacionadas a doenças genéticas.
  • Requisitos Técnicos:
    • É necessária uma cobertura de 93% dos genes na base de dados OMIM e 96% dos locais no ClinVar. Para as CNVs do gene DMD, é necessário o design de encriptação de sondas.
    • Volume de dados ≥ 10 Gb. Os dados válidos devem abranger a região CDS e regiões patogénicas não codificantes (por exemplo, intrões, UTRs).

Análise de Mutação Somática de Tumor

  • Objetivo: Avaliação de SNVs, variações no número de cópias (CNVs) e carga mutacional tumoral (TMB).
  • Requisitos Técnicos:
    • Amostras de Tumor: Recomenda-se uma profundidade de sequenciação média de ≥200x. Além disso, é essencial incluir uma amostra de tecido normal pareada (por exemplo, tecido normal adjacente ou sangue periférico), com uma profundidade recomendada de ≥100x, para filtrar variantes de fundo germinativo. Durante a análise, a pureza do tumor deve ser considerada para calcular a profundidade de sequenciação efetiva.
    • Utilize o algoritmo WES-CNV para detectar grandes fragmentos de CNV, combinado com MLPA ou PCR de longos fragmentos para validação.

Doenças Complexas e Análise de Associação Multigénica

  • Objetivo: Identificação de interações multigénicas e mutações patogénicas de baixa frequência.
  • Pontos técnicos chave:
    • É necessário uma cobertura normalizada (≥0,3), cobrindo ≥80% da região-alvo.
    • O sequenciamento de todo o genoma (WGS) é integrado para complementar a informação sobre a variação nas regiões não codificantes.

III. Procedimento Experimental e Controlo de Qualidade

Processamento de Amostras e Construção de Bibliotecas

  • Requisitos de DNA: Concentração ≥ 50 ng/μL, pureza OD260/OD280 ≈ 1,8; amostras FFPE requerem avaliação do grau de degradação.
  • Método de Construção de Bibliotecas: A construção de bibliotecas por PCR de baixo ciclo assegura homogeneidade; um sistema de hibridação 1:1 é utilizado na fase de captura.

Sequenciação e Análise de Dados

  • Seleção de Plataforma: Illumina NovaSeq plataforma, estratégia de sequenciação PE150, volume de dados ≥ 8-10 Gb/amostra.
  • Fluxo de Análise:
    • Controlo de Qualidade: Recomenda-se um processo de controlo de qualidade em duas etapas para garantir a fiabilidade dos dados: (1) QC de Dados Brutos: Utilize o FastQC para avaliar a distribuição da qualidade das bases, contaminação por adaptadores, conteúdo de GC e sequências sobre-representadas. (2) QC Pós-Alinhamento: Utilize o samtools flagstat para avaliar a taxa de alinhamento; utilize o Picard CollectInsertSizeMetrics e CollectGcBiasMetrics para avaliar a distribuição do tamanho dos inserts e o viés de GC; utilize o Picard MarkDuplicates para calcular a taxa de duplicação por PCR; utilize o Qualimap ou mosdepth para uma avaliação abrangente da profundidade de cobertura e uniformidade nas regiões alvo.
    • Deteção de Variação: O GATK HaplotypeCaller identifica SNVs/InDels; o CNVkit ou o Control-FREEC detetam CNVs.

Anotação e Filtragem de Variantes

  • Integração de Bases de Dados: ClinVar, OMIM, gnomAD, etc., combinadas com as diretrizes da ACMG para classificação de patogenicidade (P/LP/VUS/LB/B).
  • Filtragem de Falsos Positivos: Sequenciação Sanger para verificar resultados positivos, qPCR ou MLPA para confirmar CNVs.

Modeling of CDS coverage identifies key determinants of coverage evenness. A modelagem da cobertura de CDS identifica os principais determinantes da uniformidade da cobertura (Barbitoff YA et al., 2020)

IV. Amostras Especiais e Desafios Técnicos

Processamento de Amostras FFPE

  • Avaliação da Qualidade do DNA: O tamanho dos fragmentos deve ser detetado utilizando o Bioanalisador Agilent. Se a degradação for ≥30%, o número de ciclos de amplificação deve ser aumentado.
  • Otimização da Construção de Bibliotecas: Utilize um protocolo com uma quantidade inicial baixa (50 ng de DNA) e otimize as condições de amplificação da biblioteca.

Análise de Micro Amostras

  • Esfregaços de Sangue Seco Neonatal: Utilize o método Transposase para a construção da biblioteca (por exemplo, Illumina Nextera), com uma quantidade mínima de ADN ≤50 ng.
  • Estudos de Heterogeneidade Tumoral: Requer amostragem multi-região, combinada com tecnologia de etiquetagem molecular UMI para reduzir o viés de amplificação.

Captura de Região Complexa

  • Regiões de Alto GC: Utilize design de sondas de extremidade emparelhada ou aumente a densidade de sondas, combinado com a construção de bibliotecas sem PCR para reduzir o viés de GC.
  • Interferência de Pseudogenes: Encriptar sondas para cobrir sequências expressas diferencialmente, combinadas com sequenciação de longas leituras (por exemplo, PacBio) para verificar variações estruturais.

V. Profundidade da Análise de Dados e Aplicação Clínica

Estratégias de Anotação e Filtragem de Variações

  • Anotação Funcional: Integração de bases de dados como ClinVar, OMIM e gnomAD, combinando com as diretrizes da ACMG para a classificação de patogenicidade (P/LP/VUS/LB/B).
  • Filtragem de Falsos Positivos: Verificação de resultados positivos através de sequenciação Sanger ou qPCR para reduzir a taxa de diagnósticos falsos.

Detalhes Técnicos da Detecção de CNV

  • Seleção de Algoritmo: XHMM ou CNVkit é recomendado para CNVs a nível de exão. Fragmentos de CNV grandes (>1 Mb) são validados usando dados de WGS ou MLPA.
  • Análise Específica do Tumor: Cálculo da razão entre o número de cópias de tumor/tecido normal, filtragem de polimorfismos germinativos (por exemplo, frequência >5%) e identificação de regiões de LOH (perda de heterozigosidade).

Visualização de Dados e Relatórios

  • Análise Interativa do IGV: Geração de mapas de profundidade de cobertura e mapas de distribuição de locais de variantes, suportando comparações multi-amostra (por exemplo, análise de co-segregação familiar).
  • Modelo de relatório: Classificar de acordo com as diretrizes da ACMG (patogenicidade/patogenicidade provável/significado incerto), com métodos de validação (por exemplo, Sequenciação de Sanger) e recomendações de aconselhamento genético.

VI. Gestão de Ética e Conformidade

Gestão de Recursos Genéticos Humanos

  • Coleta de Amostras: É necessário consentimento informado, especificando a utilização pretendida (por exemplo, investigação/clínica). As amostras enviadas externamente devem ser registadas no Ministério da Ciência e Tecnologia.
  • Armazenamento de Dados: Dados brutos (FASTQ) devem ser encriptados e armazenados por ≥2 anos. A transferência transfronteiriça é proibida, e a conformidade com os "Regulamentos sobre a Gestão de Recursos Genéticos Humanos" é obrigatória.

Certificação de Controlo de Qualidade

  • Qualificação do Laboratório: É necessária acreditação CAP/CLIA e participação regular em avaliações de qualidade interlaboratorial.
  • Validação por Terceiros: Resultados chave (por exemplo, mutações patogénicas) devem ser reavaliados por instituições independentes para garantir a precisão.

VIII. Análise de Caso

Requisitos de Cobertura

Os requisitos de cobertura para WES no estudo de LaDuca H et al. foram principalmente baseados na profundidade de cobertura de sequência, especificamente definidos da seguinte forma:

  • Profundidade de deteção suficiente: Refere-se, geralmente, a uma profundidade de sequenciação ≥10 vezes (ou seja, a posição é sequenciada pelo menos 10 vezes) para garantir a fiabilidade da deteção de variantes.
  • Cobertura parcial: Todas as variantes patogénicas têm cobertura parcial em pelo menos uma sequência de exon (ou seja, pelo menos uma leitura de sequenciamento cobre a posição).
  • Outras métricas de profundidade: Uma percentagem média de cobertura de bases ≥10 vezes é de 94,8% (intervalo de 92,9–96,0%), com uma profundidade média por amostra de 94 vezes (intervalo de 80X–114X); 98% da cobertura de bases >20X, 48% da cobertura >100X, e não há bases completamente descobertas.

Resultados de Cobertura

Através da análise de cobertura de 1533 variantes patogénicas (de 91 genes, envolvendo 5 doenças genéticas) em 100 clínicas WES amostras e validação na base de dados ExAC de 60.706 exões, os principais resultados são os seguintes:

1. Sensibilidade Geral de Detecção

  • Num total de 153.300 avaliações (1.533 variantes × 100 amostras), 99,7% das avaliações alcançaram uma profundidade de cobertura de ≥10x (ou seja, 152.798/153.300).
  • Do ponto de vista dos variantes individuais, 97,3% dos variantes (1.491/1.533) atingiram uma profundidade de cobertura de ≥10x em todas as 100 amostras.
  • Todas as variantes patogénicas tiveram pelo menos cobertura parcial (sem casos de descoberta completa).

2. Diferenças Entre Categorias de Doenças

  • Marfan/Aneurisma Aórtico (TAAD): 99,8% das variantes patogénicas foram suficientemente detectáveis (mais elevado).
  • Deficiência intelectual ligada ao cromossoma X (XLID): 98,5% das variantes patogénicas foram detectáveis (mais baixo), e a proporção de cobertura adequada em todas as 100 amostras foi de 73,9% (mais baixo), possivelmente devido ao pequeno tamanho da amostra (apenas 23 variantes patogénicas) e ao menor número de alelos no cromossoma X único masculino.
  • Displasia ciliar primária (PCD): A maior proporção de cobertura adequada em todas as 100 amostras (98,2%).

3. Cobertura Inadequada

  • 2,7% das variantes patogénicas (42/1.533) tinham <10X de cobertura em pelo menos uma amostra de WES.
  • Possíveis razões para cobertura inadequada: 26,2% estavam localizados em regiões ricas em GC (GC>60%), 19,0% em regiões repetitivas (cadeias poliméricas ≥9 bp), 7,1% em regiões de interferência de pseudogenes; 47,6% não tinham uma explicação clara.
  • Exemplo típico: A variante de pseudogene altamente homóloga (c.325DELG) no gene PMS2 foi detectada em apenas 35/100 amostras.

4. Resultados de Validação (Base de Dados ExAC)

  • A avaliação de 60.706 exões na base de dados gnomAD revelou que aproximadamente 98,6% dos locais avaliados atingiram uma profundidade de cobertura suficiente (≥10x).
  • 86,2% das variantes patogénicas (1.321/1.533) foram detectáveis em ≥99% (60.099/60.706) das amostras.

5. Validação da Detecção Real

  • Na base de dados interna, todos os 16 pacientes (21 variantes patogénicas) que foram submetidos a testes de painel direcionado foram detetados com sucesso por WES.

VII. Integração de Tecnologias de Ponta e Tendências Futuras

Integração de Sequenciamento de Longa Leitura

  • Cenários de Aplicação: Análise de variações estruturais complexas (por exemplo, translocações balanceadas, amplificação de duplicações), complementando as limitações do sequenciamento de leituras curtas.
  • Avanços Tecnológicos: O Oxford Nanopore a plataforma permite sequenciação em tempo real, suportando a deteção direta de modificações de metilação.

WES de Célula Única

  • Cenários de Aplicação: O WES é principalmente utilizado para analisar variantes somáticas de baixa frequência (por exemplo, amplificações subclonais em leucemias) e acompanhar a evolução clonal através da genómica comparativa de tecidos tumorais e normais. Por exemplo, o WES pode detectar mutações driver (por exemplo, EGFR, KRAS) e variantes estruturais (por exemplo, fusões RUNX1-RUNX1T1) com frequências alélicas tão baixas quanto 0,1%, permitindo estudos de heterogeneidade intratumoral e trajetórias evolutivas.
  • Desafios Técnicos: Otimização da eficiência de captura de células únicas (por exemplo, utilizando a plataforma 10x Genomics) e suplementação de variantes de regiões não codificantes utilizando WGS.

Análise Assistida por IA

  • Priorização de Variantes: Modelos de aprendizagem profunda, como o AlphaMissense, podem prever a patogenicidade de mutações missense, fornecendo evidências computacionais de suporte (PP3) dentro das diretrizes ACMG/AMP. Embora as suas previsões não possam servir como uma base independente para determinar a patogenicidade, funcionam como poderosas ferramentas de triagem e priorização. Estas ferramentas ajudam os investigadores a concentrar-se rapidamente em locais candidatos de alto risco a partir de um vasto número de variantes de significado incerto (VUS), aumentando assim a eficiência da interpretação manual.
  • Geração Automática de Relatórios: Integração de Processamento de Linguagem Natural (PLN) para gerar automaticamente relatórios clínicos em conformidade.

Resumo

  • Os requisitos de cobertura de sequenciação do exoma completo precisam de otimização em várias dimensões: processamento de amostras, análise de dados, gestão ética e integração tecnológica.
  • Nível de Amostra: Desenvolvimento de soluções personalizadas para a construção de bibliotecas para FFPE e micro-amostras para melhorar a uniformidade de cobertura com volumes iniciais baixos.
  • Nível de Análise: Combinação da deteção de CNV, associação fenotípica e ferramentas de IA para melhorar a aplicabilidade clínica dos resultados.
  • Nível de Gestão: Reforçar a revisão ética e a segurança dos dados para garantir a conformidade com os requisitos regulamentares.

No futuro, com a popularização do sequenciamento de leituras longas e das tecnologias de IA, o WES desempenhará um papel mais central na medicina de precisão, especialmente no campo da análise de mecanismos de doenças complexas e monitorização dinâmica.

As pessoas também perguntam

Qual é a cobertura do sequenciamento do exoma completo?

A cobertura típica para o sequenciamento do exoma completo clínico é de 100x a 200x, o que garante uma deteção precisa de variantes.

O que significa cobertura de 30X em sequenciação?

Isso significa que o genoma foi sequenciado uma média de 30 vezes para detectar variantes genéticas de forma fiável.

Como calcular a cobertura em sequenciação?

Podemos usar a cobertura como o número médio de ocorrências e y como o número exato de vezes que uma base é sequenciada, e depois calcular a probabilidade de isso acontecer: P(Y=3) = (6.33 × e-6.3)/3! = 0.077 Claro que este é o valor para exatamente 3.

Qual é a profundidade de sequenciação recomendada para 10X?

Normalmente, recomendamos uma profundidade de sequenciação entre 30.000 e 70.000 leituras por célula para projetos de 10x Genomics. Agende uma chamada com um dos nossos especialistas para discutir as suas opções.

O que é a amplitude e a profundidade da cobertura?

A amplitude da cobertura refere-se à proporção do genoma sequenciado pelo menos uma vez, enquanto a profundidade da cobertura é o número médio de vezes que cada base no genoma é sequenciada.

Qual é a profundidade do sequenciamento do exoma?

Em resumo, com a técnica de sequenciação por captura de exoma, as variações clínicas mais significativas podem ser detetadas a uma profundidade média de 120×.

Qual é a diferença entre 10x v3 1 e v4?

Em 2024, a 10x Genomics introduziu a química v4. A estrutura da biblioteca da v4 é exatamente a mesma que a da v3 e v3.1. No entanto, a química v4 utiliza um conjunto diferente de códigos de barras celulares (clique aqui para ver mais detalhes) e tem uma melhor recuperação celular e sensibilidade (número de genes detectados por célula) em comparação com a v3 e v3.

Referências:

  1. Barbitoff YA, Polev DE, Glotov AS, Serebryakova EA, Shcherbakova IV, Kiselev AM, Kostareva AA, Glotov OS, Predeus AV. Dissecação sistemática de preconceitos em sequenciação de exoma completo e sequenciação de genoma completo revela principais determinantes da cobertura da sequência codificadora.. Relatórios Científicos. 2020 Fev 6;10(1):2057.
  2. LaDuca H, Farwell KD, Vuong H, Lu HM, Mu W, Shahmirzadi L, Tang S, Chen J, Bhide S, Chao EC. O sequenciamento do exoma abrange >98% das mutações identificadas em painéis de sequenciamento de próxima geração direcionados.. PLoS One. 2017 Fev 2;12(2):e0170843.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo