What is the coverage of whole exome sequencing?

The typical coverage for clinical whole exome sequencing is 100x to 200x, which ensures accurate variant detection.

What does 30X coverage mean in sequencing?

It means the genome has been sequenced an average of 30 times to reliably detect genetic variants.

How to calculate coverage in sequencing?

We can use the coverage as the average number of occurrences and y as the exact number of times a base is sequenced, and then compute the probability that would happen: P(Y=3) = (6.33 × e-6.3)/3! = 0.077 Of course, this is the value for exactly 3.

What is the recommended sequencing depth for 10X?

Typically, we recommend a sequencing depth between 30,000 and 70,000 reads per cell for 10x Genomics projects. Schedule a call with one of our specialists to discuss your options.

What is coverage breadth and depth?

Coverage breadth refers to the proportion of the genome sequenced at least once, while coverage depth is the average number of times each base in the genome is sequenced.

What is the depth of exome sequencing?

In summary, with exome capture sequencing technique, the most significant clinical variations can be detected at an average depth of 120×.

What is the difference between 10x v3 1 and v4?

In 2024, 10x Genomics introduced the v4 chemistry. The library structure of v4 is exactly the same as v3 and v3. 1. However, the v4 chemistry uses a different set of cell barcodes (click here to see more details) and it has better cell recovery and sensitivity (number of detected genes per cell) compared to v3 and v3.

Requisitos de Cobertura para Projetos de Sequenciamento de Exoma Completo

Sequenciação do exoma completo (WES) fornece suporte eficiente para a pesquisa de doenças genéticas, tumores e doenças complexas, direcionando e capturando informações sobre variações nas regiões codificadoras de genes (exões). Os requisitos de cobertura precisam ser projetados de forma abrangente com base nos objetivos da pesquisa, tipo de amostra e necessidades clínicas. A seguir, estão os parâmetros chave e as especificações técnicas.

I. Princípios Técnicos e Parâmetros Fundamentais

Tecnologia de Captura de Exões

Design de Provas: Utiliza provas de RNA ou DNA (como as provas de RNA de 120-mer da Agilent SureSelect) para cobrir principalmente as sequências codificantes (CDS) do genoma (aproximadamente 30 Mb, 1%-2% do genoma), que constituem o núcleo de todo o exoma. Algumas versões estendidas ou "Plus" de kits comerciais de captura (por exemplo, Agilent SureSelect Human All Exon V8) podem incluir adicionalmente regiões não traduzidas (UTRs) (5'UTR/3'UTR) e intrões patogénicos (por exemplo, locais de splicing ou regiões intrónicas associadas a doenças), mas estes não fazem parte da definição padrão de sequenciamento de todo o exoma (WES).
Eficiência de Captura: A região-alvo deve representar ≥60% de todas as bases alinhadas. Volumes iniciais de amostra baixos (por exemplo, 50 ng de DNA) podem ser preparados utilizando o método da transposase.

Profundidade e Cobertura de Sequenciamento

Profundidade de Cobertura:
- Variações Germinativas: ≥50x (100x recomendado), valor Q30 ≥90%.
- Mutações Somáticas (Tumores): ≥200x (tecido tumoral), emparelhadas com amostras normais para filtrar variações germinativas.
Cobertura:
- Variações Germinativas: Recomenda-se alcançar uma profundidade média de sequenciação de ≥100x, com ≥95% das regiões-alvo a atingir uma profundidade de cobertura de ≥20x, para garantir a deteção fiável de variantes homozigóticas e heterozigóticas.
- Mutações de Baixa Frequência (por exemplo, Variantes Somáticas): Recomenda-se uma profundidade de sequenciamento média de ≥200x para aumentar a sensibilidade de deteção de variantes com uma frequência alélica abaixo de 5%.

Indicadores de Qualidade de Dados

Pontuação Q30: A proporção de bases com uma pontuação de qualidade Q30 nos dados de sequenciação bruta deve ser ≥85% (um limiar comumente aceite na plataforma Illumina). Esta métrica reflete indiretamente a fiabilidade da chamada de bases dos dados primários.
Penalização FOLD80: ≤ 1,4 (idealmente ≤ 1,2), refletindo a uniformidade da profundidade de cobertura.
Taxa de Duplicação de PCR: Idealmente, deve ser mantida ≤10%. Uma alta taxa de duplicação pode resultar de material de DNA inicial insuficiente ou de ciclos excessivos de amplificação de PCR, o que reduz a utilização efetiva dos dados de sequenciação.

Coverage of target regions across WES and WGS samples. Cobertura das regiões-alvo em amostras de WES e WGS (Barbitoff YA et al., 2020)

II. Requisitos de Cobertura para Diferentes Cenários de Pesquisa

Deteção de Variação Germinativa

Objetivo: Variações de nucleótido único (SNVs), inserções/deleções (InDels) e outras mutações relacionadas a doenças genéticas.
Requisitos Técnicos:
- É necessária uma cobertura de 93% dos genes na base de dados OMIM e 96% dos locais no ClinVar. Para as CNVs do gene DMD, é necessário o design de encriptação de sondas.
- Volume de dados ≥ 10 Gb. Os dados válidos devem abranger a região CDS e regiões patogénicas não codificantes (por exemplo, intrões, UTRs).

Análise de Mutação Somática de Tumor

Objetivo: Avaliação de SNVs, variações no número de cópias (CNVs) e carga mutacional tumoral (TMB).
Requisitos Técnicos:
- Amostras de Tumor: Recomenda-se uma profundidade de sequenciação média de ≥200x. Além disso, é essencial incluir uma amostra de tecido normal pareada (por exemplo, tecido normal adjacente ou sangue periférico), com uma profundidade recomendada de ≥100x, para filtrar variantes de fundo germinativo. Durante a análise, a pureza do tumor deve ser considerada para calcular a profundidade de sequenciação efetiva.
- Utilize o algoritmo WES-CNV para detectar grandes fragmentos de CNV, combinado com MLPA ou PCR de longos fragmentos para validação.

Doenças Complexas e Análise de Associação Multigénica

Objetivo: Identificação de interações multigénicas e mutações patogénicas de baixa frequência.
Pontos técnicos chave:
- É necessário uma cobertura normalizada (≥0,3), cobrindo ≥80% da região-alvo.
- O sequenciamento de todo o genoma (WGS) é integrado para complementar a informação sobre a variação nas regiões não codificantes.

III. Procedimento Experimental e Controlo de Qualidade

Processamento de Amostras e Construção de Bibliotecas

Requisitos de DNA: Concentração ≥ 50 ng/μL, pureza OD260/OD280 ≈ 1,8; amostras FFPE requerem avaliação do grau de degradação.
Método de Construção de Bibliotecas: A construção de bibliotecas por PCR de baixo ciclo assegura homogeneidade; um sistema de hibridação 1:1 é utilizado na fase de captura.

Sequenciação e Análise de Dados

Seleção de Plataforma: Illumina NovaSeq plataforma, estratégia de sequenciação PE150, volume de dados ≥ 8-10 Gb/amostra.
Fluxo de Análise:
- Controlo de Qualidade: Recomenda-se um processo de controlo de qualidade em duas etapas para garantir a fiabilidade dos dados: (1) QC de Dados Brutos: Utilize o FastQC para avaliar a distribuição da qualidade das bases, contaminação por adaptadores, conteúdo de GC e sequências sobre-representadas. (2) QC Pós-Alinhamento: Utilize o samtools flagstat para avaliar a taxa de alinhamento; utilize o Picard CollectInsertSizeMetrics e CollectGcBiasMetrics para avaliar a distribuição do tamanho dos inserts e o viés de GC; utilize o Picard MarkDuplicates para calcular a taxa de duplicação por PCR; utilize o Qualimap ou mosdepth para uma avaliação abrangente da profundidade de cobertura e uniformidade nas regiões alvo.
- Deteção de Variação: O GATK HaplotypeCaller identifica SNVs/InDels; o CNVkit ou o Control-FREEC detetam CNVs.

Anotação e Filtragem de Variantes

Integração de Bases de Dados: ClinVar, OMIM, gnomAD, etc., combinadas com as diretrizes da ACMG para classificação de patogenicidade (P/LP/VUS/LB/B).
Filtragem de Falsos Positivos: Sequenciação Sanger para verificar resultados positivos, qPCR ou MLPA para confirmar CNVs.

Modeling of CDS coverage identifies key determinants of coverage evenness. A modelagem da cobertura de CDS identifica os principais determinantes da uniformidade da cobertura (Barbitoff YA et al., 2020)

IV. Amostras Especiais e Desafios Técnicos

Processamento de Amostras FFPE

Avaliação da Qualidade do DNA: O tamanho dos fragmentos deve ser detetado utilizando o Bioanalisador Agilent. Se a degradação for ≥30%, o número de ciclos de amplificação deve ser aumentado.
Otimização da Construção de Bibliotecas: Utilize um protocolo com uma quantidade inicial baixa (50 ng de DNA) e otimize as condições de amplificação da biblioteca.

Análise de Micro Amostras

Esfregaços de Sangue Seco Neonatal: Utilize o método Transposase para a construção da biblioteca (por exemplo, Illumina Nextera), com uma quantidade mínima de ADN ≤50 ng.
Estudos de Heterogeneidade Tumoral: Requer amostragem multi-região, combinada com tecnologia de etiquetagem molecular UMI para reduzir o viés de amplificação.

Captura de Região Complexa

Regiões de Alto GC: Utilize design de sondas de extremidade emparelhada ou aumente a densidade de sondas, combinado com a construção de bibliotecas sem PCR para reduzir o viés de GC.
Interferência de Pseudogenes: Encriptar sondas para cobrir sequências expressas diferencialmente, combinadas com sequenciação de longas leituras (por exemplo, PacBio) para verificar variações estruturais.

V. Profundidade da Análise de Dados e Aplicação Clínica

Estratégias de Anotação e Filtragem de Variações

Anotação Funcional: Integração de bases de dados como ClinVar, OMIM e gnomAD, combinando com as diretrizes da ACMG para a classificação de patogenicidade (P/LP/VUS/LB/B).
Filtragem de Falsos Positivos: Verificação de resultados positivos através de sequenciação Sanger ou qPCR para reduzir a taxa de diagnósticos falsos.

Detalhes Técnicos da Detecção de CNV

Seleção de Algoritmo: XHMM ou CNVkit é recomendado para CNVs a nível de exão. Fragmentos de CNV grandes (>1 Mb) são validados usando dados de WGS ou MLPA.
Análise Específica do Tumor: Cálculo da razão entre o número de cópias de tumor/tecido normal, filtragem de polimorfismos germinativos (por exemplo, frequência >5%) e identificação de regiões de LOH (perda de heterozigosidade).

Visualização de Dados e Relatórios

Análise Interativa do IGV: Geração de mapas de profundidade de cobertura e mapas de distribuição de locais de variantes, suportando comparações multi-amostra (por exemplo, análise de co-segregação familiar).
Modelo de relatório: Classificar de acordo com as diretrizes da ACMG (patogenicidade/patogenicidade provável/significado incerto), com métodos de validação (por exemplo, Sequenciação de Sanger) e recomendações de aconselhamento genético.

VI. Gestão de Ética e Conformidade

Gestão de Recursos Genéticos Humanos

Coleta de Amostras: É necessário consentimento informado, especificando a utilização pretendida (por exemplo, investigação/clínica). As amostras enviadas externamente devem ser registadas no Ministério da Ciência e Tecnologia.
Armazenamento de Dados: Dados brutos (FASTQ) devem ser encriptados e armazenados por ≥2 anos. A transferência transfronteiriça é proibida, e a conformidade com os "Regulamentos sobre a Gestão de Recursos Genéticos Humanos" é obrigatória.

Certificação de Controlo de Qualidade

Qualificação do Laboratório: É necessária acreditação CAP/CLIA e participação regular em avaliações de qualidade interlaboratorial.
Validação por Terceiros: Resultados chave (por exemplo, mutações patogénicas) devem ser reavaliados por instituições independentes para garantir a precisão.

VIII. Análise de Caso

Requisitos de Cobertura

Os requisitos de cobertura para WES no estudo de LaDuca H et al. foram principalmente baseados na profundidade de cobertura de sequência, especificamente definidos da seguinte forma:

Profundidade de deteção suficiente: Refere-se, geralmente, a uma profundidade de sequenciação ≥10 vezes (ou seja, a posição é sequenciada pelo menos 10 vezes) para garantir a fiabilidade da deteção de variantes.
Cobertura parcial: Todas as variantes patogénicas têm cobertura parcial em pelo menos uma sequência de exon (ou seja, pelo menos uma leitura de sequenciamento cobre a posição).
Outras métricas de profundidade: Uma percentagem média de cobertura de bases ≥10 vezes é de 94,8% (intervalo de 92,9–96,0%), com uma profundidade média por amostra de 94 vezes (intervalo de 80X–114X); 98% da cobertura de bases >20X, 48% da cobertura >100X, e não há bases completamente descobertas.

Resultados de Cobertura

Através da análise de cobertura de 1533 variantes patogénicas (de 91 genes, envolvendo 5 doenças genéticas) em 100 clínicas WES amostras e validação na base de dados ExAC de 60.706 exões, os principais resultados são os seguintes:

1. Sensibilidade Geral de Detecção

Num total de 153.300 avaliações (1.533 variantes × 100 amostras), 99,7% das avaliações alcançaram uma profundidade de cobertura de ≥10x (ou seja, 152.798/153.300).
Do ponto de vista dos variantes individuais, 97,3% dos variantes (1.491/1.533) atingiram uma profundidade de cobertura de ≥10x em todas as 100 amostras.
Todas as variantes patogénicas tiveram pelo menos cobertura parcial (sem casos de descoberta completa).

2. Diferenças Entre Categorias de Doenças

Marfan/Aneurisma Aórtico (TAAD): 99,8% das variantes patogénicas foram suficientemente detectáveis (mais elevado).
Deficiência intelectual ligada ao cromossoma X (XLID): 98,5% das variantes patogénicas foram detectáveis (mais baixo), e a proporção de cobertura adequada em todas as 100 amostras foi de 73,9% (mais baixo), possivelmente devido ao pequeno tamanho da amostra (apenas 23 variantes patogénicas) e ao menor número de alelos no cromossoma X único masculino.
Displasia ciliar primária (PCD): A maior proporção de cobertura adequada em todas as 100 amostras (98,2%).

3. Cobertura Inadequada

2,7% das variantes patogénicas (42/1.533) tinham <10X de cobertura em pelo menos uma amostra de WES.
Possíveis razões para cobertura inadequada: 26,2% estavam localizados em regiões ricas em GC (GC>60%), 19,0% em regiões repetitivas (cadeias poliméricas ≥9 bp), 7,1% em regiões de interferência de pseudogenes; 47,6% não tinham uma explicação clara.
Exemplo típico: A variante de pseudogene altamente homóloga (c.325DELG) no gene PMS2 foi detectada em apenas 35/100 amostras.

4. Resultados de Validação (Base de Dados ExAC)

A avaliação de 60.706 exões na base de dados gnomAD revelou que aproximadamente 98,6% dos locais avaliados atingiram uma profundidade de cobertura suficiente (≥10x).
86,2% das variantes patogénicas (1.321/1.533) foram detectáveis em ≥99% (60.099/60.706) das amostras.

5. Validação da Detecção Real

Na base de dados interna, todos os 16 pacientes (21 variantes patogénicas) que foram submetidos a testes de painel direcionado foram detetados com sucesso por WES.

VII. Integração de Tecnologias de Ponta e Tendências Futuras

Integração de Sequenciamento de Longa Leitura

Cenários de Aplicação: Análise de variações estruturais complexas (por exemplo, translocações balanceadas, amplificação de duplicações), complementando as limitações do sequenciamento de leituras curtas.
Avanços Tecnológicos: O Oxford Nanopore a plataforma permite sequenciação em tempo real, suportando a deteção direta de modificações de metilação.

WES de Célula Única

Cenários de Aplicação: O WES é principalmente utilizado para analisar variantes somáticas de baixa frequência (por exemplo, amplificações subclonais em leucemias) e acompanhar a evolução clonal através da genómica comparativa de tecidos tumorais e normais. Por exemplo, o WES pode detectar mutações driver (por exemplo, EGFR, KRAS) e variantes estruturais (por exemplo, fusões RUNX1-RUNX1T1) com frequências alélicas tão baixas quanto 0,1%, permitindo estudos de heterogeneidade intratumoral e trajetórias evolutivas.
Desafios Técnicos: Otimização da eficiência de captura de células únicas (por exemplo, utilizando a plataforma 10x Genomics) e suplementação de variantes de regiões não codificantes utilizando WGS.

Análise Assistida por IA

Priorização de Variantes: Modelos de aprendizagem profunda, como o AlphaMissense, podem prever a patogenicidade de mutações missense, fornecendo evidências computacionais de suporte (PP3) dentro das diretrizes ACMG/AMP. Embora as suas previsões não possam servir como uma base independente para determinar a patogenicidade, funcionam como poderosas ferramentas de triagem e priorização. Estas ferramentas ajudam os investigadores a concentrar-se rapidamente em locais candidatos de alto risco a partir de um vasto número de variantes de significado incerto (VUS), aumentando assim a eficiência da interpretação manual.
Geração Automática de Relatórios: Integração de Processamento de Linguagem Natural (PLN) para gerar automaticamente relatórios clínicos em conformidade.

Resumo

Os requisitos de cobertura de sequenciação do exoma completo precisam de otimização em várias dimensões: processamento de amostras, análise de dados, gestão ética e integração tecnológica.
Nível de Amostra: Desenvolvimento de soluções personalizadas para a construção de bibliotecas para FFPE e micro-amostras para melhorar a uniformidade de cobertura com volumes iniciais baixos.
Nível de Análise: Combinação da deteção de CNV, associação fenotípica e ferramentas de IA para melhorar a aplicabilidade clínica dos resultados.
Nível de Gestão: Reforçar a revisão ética e a segurança dos dados para garantir a conformidade com os requisitos regulamentares.

No futuro, com a popularização do sequenciamento de leituras longas e das tecnologias de IA, o WES desempenhará um papel mais central na medicina de precisão, especialmente no campo da análise de mecanismos de doenças complexas e monitorização dinâmica.

As pessoas também perguntam

Qual é a cobertura do sequenciamento do exoma completo?

A cobertura típica para o sequenciamento do exoma completo clínico é de 100x a 200x, o que garante uma deteção precisa de variantes.

O que significa cobertura de 30X em sequenciação?

Isso significa que o genoma foi sequenciado uma média de 30 vezes para detectar variantes genéticas de forma fiável.

Como calcular a cobertura em sequenciação?

Podemos usar a cobertura como o número médio de ocorrências e y como o número exato de vezes que uma base é sequenciada, e depois calcular a probabilidade de isso acontecer: P(Y=3) = (6.33 × e-6.3)/3! = 0.077 Claro que este é o valor para exatamente 3.

Qual é a profundidade de sequenciação recomendada para 10X?

Normalmente, recomendamos uma profundidade de sequenciação entre 30.000 e 70.000 leituras por célula para projetos de 10x Genomics. Agende uma chamada com um dos nossos especialistas para discutir as suas opções.

O que é a amplitude e a profundidade da cobertura?

A amplitude da cobertura refere-se à proporção do genoma sequenciado pelo menos uma vez, enquanto a profundidade da cobertura é o número médio de vezes que cada base no genoma é sequenciada.

Qual é a profundidade do sequenciamento do exoma?

Em resumo, com a técnica de sequenciação por captura de exoma, as variações clínicas mais significativas podem ser detetadas a uma profundidade média de 120×.

Qual é a diferença entre 10x v3 1 e v4?

Em 2024, a 10x Genomics introduziu a química v4. A estrutura da biblioteca da v4 é exatamente a mesma que a da v3 e v3.1. No entanto, a química v4 utiliza um conjunto diferente de códigos de barras celulares (clique aqui para ver mais detalhes) e tem uma melhor recuperação celular e sensibilidade (número de genes detectados por célula) em comparação com a v3 e v3.

Referências:

Barbitoff YA, Polev DE, Glotov AS, Serebryakova EA, Shcherbakova IV, Kiselev AM, Kostareva AA, Glotov OS, Predeus AV. Dissecação sistemática de preconceitos em sequenciação de exoma completo e sequenciação de genoma completo revela principais determinantes da cobertura da sequência codificadora.. Relatórios Científicos. 2020 Fev 6;10(1):2057.
LaDuca H, Farwell KD, Vuong H, Lu HM, Mu W, Shahmirzadi L, Tang S, Chen J, Bhide S, Chao EC. O sequenciamento do exoma abrange >98% das mutações identificadas em painéis de sequenciamento de próxima geração direcionados.. PLoS One. 2017 Fev 2;12(2):e0170843.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados