Princípios e Fluxo de Trabalho do Sequenciamento do Exoma Total: Um Guia Técnico para o Design de Projetos

A sequenciação do exoma completo (WES) foca nas regiões codificadoras de proteínas do genoma—aproximadamente 35 Mb, ou 1-2% da sequência total do genoma—utilizando enriquecimento por captura baseado em hibridização combinado com sequenciação de alto rendimento. Apesar de cobrir apenas uma pequena fração do genoma, o WES investiga aproximadamente 85% das mutações conhecidas que causam doenças, tornando-se uma das estratégias mais rentáveis para análise genómica, tanto em investigação como em contexto clínico. O compromisso entre a cobertura do genoma e o custo da sequenciação—o WES a 100× custa aproximadamente um quinto do WGS a 30×—posiciona a sequenciação do exoma como um ponto de entrada acessível para projetos que requerem deteção abrangente de variantes em muitas amostras. Todos os serviços de WES e análises bioinformáticas descritas neste guia são apenas para uso em investigação e não se destinam a aplicações de diagnóstico clínico.

Este guia fornece uma estrutura técnica para investigadores que estão a conceber projetos de WES. Abrange os princípios bioquímicos do enriquecimento por captura híbrida que determinam a eficiência e uniformidade da captura, a relação quantitativa entre a profundidade de sequenciação e a cobertura efetiva, as principais diferenças entre estratégias de análise pareada tumor-normal e tumor apenas, e as métricas de controlo de qualidade que distinguem dados de WES de alta qualidade de execuções comprometidas. O foco está em conceber experiências que gerem dados de WES com a profundidade e uniformidade necessárias para a aplicação pretendida—seja na descoberta de variantes germinativas, deteção de mutações somáticas ou sequenciação diagnóstica clínica. Cada seção fornece orientações práticas para uma fase específica do processo de conceção do projeto, desde a seleção do kit de captura até à análise bioinformática e interpretação de variantes.

Serviços de sequenciação do exoma completo utilize kits de captura validados e protocolos de preparação de bibliotecas padronizados para alcançar >95% das bases-alvo a 20× de cobertura com pontuações fold-80 abaixo de 2,0. A escolha da química de captura, da plataforma de sequenciação e da profundidade determina diretamente a qualidade dos dados e os tipos de variantes que podem ser detetadas de forma fiável — tornando o design informado do projeto o fator mais importante para o sucesso dos estudos de WES.

O que é o Sequenciamento do Exoma Completo e Quando Deve Escolhê-lo?

O sequenciamento do exoma completo enriquece e sequencia as regiões exónicas do genoma — definidas como as sequências de exões combinadas de todos os genes codificadores de proteínas, mais as regiões não traduzidas (UTRs) e os genes de RNA não codificante (miRNA, lncRNA) incluídos pela maioria dos kits de captura comerciais. O exoma humano contém aproximadamente 180.000 exões distribuídas por 20.000-25.000 genes. Embora isso represente apenas 1-2% do genoma, o exoma abriga aproximadamente 85% das variantes conhecidas que causam doenças mendelianas e uma fração substancial das mutações impulsionadoras do câncer, tornando-o um alvo altamente eficiente para a descoberta de variantes.

A decisão de usar WES em vez de WGS ou um painel de genes direcionado depende de três fatores: alcance de cobertura necessário, número de amostras e orçamento. WES fornece cobertura codificadora em todo o genoma a um custo por amostra que permite a análise de centenas a milhares de amostras — uma escala que seria proibitivamente cara com WGS. Os painéis direcionados oferecem uma profundidade ainda maior a um custo mais baixo, mas estão limitados a conjuntos de genes predefinidos. Para projetos que requerem a descoberta de variantes codificadoras novas em muitas amostras, WES oferece o melhor equilíbrio entre alcance e eficiência de custo. Para projetos focados em genes ou vias conhecidas, os painéis direcionados são mais rentáveis. Para projetos que requerem uma análise abrangente em todo o genoma, incluindo regiões não codificantes, variantes estruturais e elementos regulatórios, é necessário WGS. Sequenciação do genoma completo fornece a visão mais abrangente, mas a um custo por amostra mais elevado.

Um fator adicional frequentemente negligenciado na decisão entre WES e WGS é a reprodutibilidade analítica entre lotes. Os dados de WES de diferentes kits de captura ou de diferentes lotes do mesmo kit mostram padrões de cobertura específicos de lote que complicam as comparações entre estudos e as meta-análises. O WGS, por não depender da química de captura, fornece perfis de cobertura mais consistentes entre diferentes laboratórios e corridas de sequenciação. Esta consideração do efeito de lote é relevante para estudos multicêntricos em grande escala ou para projetos que planeiam integrar dados de múltiplas fontes.

Figura 1: WES vs WGS vs painel direcionado — alcance, profundidade, custo e adequação da aplicação

Figure 1

O Princípio da Captura Híbrida — Como Funciona o Enriquecimento do Exoma

A tecnologia fundamental que permite o WES é a enriquecimento por captura baseada em hibridização, na qual sondas de DNA ou RNA biotiniladas (iscas) complementares às sequências exónicas são hibridizadas ao DNA genómico fragmentado, capturadas em esferas magnéticas revestidas de estreptavidina e lavadas para remover DNA não alvo não ligado. Compreender os parâmetros de design e as limitações deste processo é essencial para interpretar a qualidade dos dados do WES.

Parâmetros de design da sondaKits comerciais de captura de exoma utilizam sondas de 60-120 nucleótidos, projetadas com uma densidade de sobreposição que cobre cada região alvo com sondas sobrepostas 2× — o que significa que cada base alvo é coberta por pelo menos duas sondas independentes de diferentes posições. Esta estratégia de sobreposição garante que, se uma sonda em uma região falhar em capturar seu alvo devido a variação de sequência ou estrutura secundária, a sonda sobreposta fornece cobertura redundante. O conjunto de sondas para um kit típico de captura de exoma humano contém entre 400.000 a 700.000 sondas únicas, dependendo do design da região alvo e da densidade de sobreposição. Um algoritmo de 2025 publicado na Bioinformatics (OLTA) otimiza a seleção de iscas para minimizar o número de sondas necessárias, mantendo a cobertura do alvo, reduzindo os custos de captura sem sacrificar a eficiência.

Condições de hibridaçãoA hibridação é realizada a 65°C durante 16-24 horas no protocolo padrão, ou a temperaturas elevadas com tempos mais curtos (1,5-4 horas) em protocolos de captura rápida que utilizam concentrações de sondas mais altas e formulações de tampão otimizadas. Lavagens de rigor a 65°C com concentrações de sal decrescentes removem DNA não-alvo parcialmente hibridizado. O rigor dessas lavagens determina diretamente a taxa de correspondência com o alvo — lavagens mais rigorosas aumentam a proporção de leituras que mapeiam para regiões-alvo, mas reduzem o rendimento total, enquanto lavagens menos rigorosas capturam mais DNA fora do alvo (incluindo regiões genómicas não-alvo e DNA mitocondrial) que podem ser informativas para a análise de CNV, mas reduzem a profundidade de sequenciação efetiva no alvo. A temperatura de hibridação deve ser controlada com precisão — cada desvio de 1°C da temperatura ótima reduz a eficiência de captura em aproximadamente 5-10% para alvos com correspondência de GC e mais para regiões ricas em AT ou GC.

Fold-80: a métrica de uniformidade mais importanteO fold-80 mede quantas vezes a profundidade média deve ser sequenciada para alcançar 80% das bases alvo a essa profundidade média. Um fold-80 de 1.0 representa uma uniformidade perfeita (todas as bases alvo na mesma profundidade). Um fold-80 de 2.0 significa que é necessário 1.8× a profundidade média para cobrir 80% dos alvos a essa profundidade. O documento da Twist Bioscience demonstrou que melhorias no fold-80 (uniformidade) têm um impacto substancialmente maior na cobertura efetiva do que melhorias na taxa de alvos. Por exemplo, melhorar o fold-80 de 2.0 para 1.5 reduz a sequenciação necessária para alcançar 80% das bases a 20× em aproximadamente 25%, enquanto uma melhoria equivalente na taxa de alvos (de 70% para 80%) reduz a sequenciação necessária em apenas 12%. Isso torna o fold-80 a métrica mais acionável para avaliar a qualidade dos dados de WES e para projetar orçamentos de sequenciação.

dados de referência do kit 2024Uma avaliação comparativa de 2024 de quatro soluções de enriquecimento de exomas (Roche, Agilent, Vazyme, Nanodigmbio) publicada na BMC Genomics em 2025 fornece os dados de desempenho mais recentes em comparação direta. Todos os quatro kits alcançaram >97,5% das bases alvo a 10× e >95% a 20×. A Roche apresentou a cobertura mais uniforme (fold-80 mais baixo), enquanto a Nanodigmbio alcançou a maior taxa de alvo devido a menos leituras fora do alvo. A sensibilidade na deteção de variantes foi alta em todos os kits para SNVs (>99% a 20×), mas variou mais para indels (95-98%), onde a uniformidade da captura teve o maior impacto. A principal conclusão para o design do projeto é que a seleção do kit deve priorizar métricas de uniformidade (fold-80) em detrimento da taxa de alvo quando o objetivo da pesquisa é a deteção abrangente de variantes, particularmente para regiões clinicamente relevantes onde a falha de cobertura em exões individuais pode significar a perda de uma variante patogénica. Para projetos focados em um painel de genes específico ou regiões genómicas conhecidas, kits com otimização direcionada para essas regiões podem superar kits de exoma de uso geral.

Considerações práticas para a seleção do kit de capturaAlém das taxas de fold-80 e on-target, a seleção do kit deve levar em conta a definição da região-alvo. Alguns kits incluem regiões intrónicas flanqueadoras essenciais para a análise de locais de splicing, UTRs importantes para a deteção de variantes regulatórias e genes de RNA não codificante relevantes para doenças específicas. A cobertura do CCDS (Consensus CDS) — a fração de exões codificantes bem anotados incluídos na região-alvo do kit — varia entre 92-98% entre kits comerciais. Para projetos focados na descoberta de genes de doenças, pode ser preferido um kit com maior cobertura de CCDS, mesmo que a sua taxa on-target seja ligeiramente inferior. Para estudos de grandes coortes onde o custo por amostra é a principal limitação, o kit com a captura mais eficiente (maior taxa on-target com fold-80 aceitável) oferece o melhor valor.

Figura 2: Fluxo de trabalho completo de WES — desde a preparação da amostra até à análise bioinformática

Figure 2

WES vs WGS vs Painel Alvo — Três Abordagens Comparadas

As três estratégias de sequenciação diferem na cobertura do genoma, profundidade de sequenciação, custo por amostra e nos tipos de variantes que podem detectar de forma fiável.

A WGS a 30× cobre todo o genoma, incluindo regiões codificantes, não codificantes e regulatórias. Detecta SNVs, pequenas indels, variantes estruturais e CNVs em todo o genoma, sem viés de captura e sem regiões sistematicamente excluídas pelo design da sonda. No entanto, a 30×, a profundidade média nas regiões codificantes é inferior à da WES, reduzindo a sensibilidade para variantes somáticas de baixa frequência. Em grande escala, a WGS é a abordagem mais cara das três para análise direcionada a codificantes.

WES a 100-200× cobre apenas as regiões-alvo do kit de captura (tipicamente 35-50 Mb de sequência exónica e flanqueadora). A maior profundidade permite a deteção de variantes somáticas de baixa frequência até 5-10% de frequência alélica em amostras de alta pureza. WES deteta SNVs codificantes e pequenas indels com alta sensibilidade, mas tem capacidade limitada para deteção de CNVs nas regiões capturadas e nenhuma capacidade para detetar variantes em regiões não-alvo. Para a descoberta de variantes focadas na codificação em larga escala em centenas de amostras, WES proporciona o equilíbrio mais eficiente entre custo de sequenciação e abrangência dos dados.

Os painéis direcionados cobrem 0,1-5 Mb de genes ou regiões selecionadas a uma profundidade muito alta (500-2.000×). Esta profundidade permite a deteção de variantes somáticas com uma frequência alélica de 1-5%, tornando os painéis o método preferido para ensaios de biópsia líquida e para monitorização de doença residual mínima. Os painéis são a abordagem mais rentável para conjuntos de genes pré-definidos, mas não oferecem potencial de descoberta além dos genes direcionados.

Para a maioria dos projetos de investigação, a escolha entre os três segue uma lógica clara: utilizar WGS quando o orçamento permitir e a questão exigir uma análise em todo o genoma. Utilizar WES quando o orçamento limitar a capacidade de amostragem e a questão se concentrar em variantes codificantes. Utilizar painéis direcionados quando os genes de interesse estiverem bem definidos e for necessário um máximo de profundidade. Uma estratégia cada vez mais comum é uma abordagem em etapas—começando com WES para a descoberta ampla de variantes numa coorte, e depois validando e acompanhando descobertas específicas com sequenciação profunda direcionada ou estudos funcionais. Este design maximiza o potencial de descoberta do WES enquanto controla o custo geral do projeto ao reservar ensaios mais caros para a fase de validação.

Requisitos de Profundidade de Cobertura — Quanto Sequenciamento é Suficiente?

A profundidade de sequenciamento necessária para WES depende dos tipos de variantes a serem detetadas e da frequência alélica esperada. Para a deteção de SNV germinativos, uma cobertura média de 100× do alvo proporciona >99% de sensibilidade para variantes heterozigóticas com frequência alélica de 0,5. A métrica crítica de QC é a fração de bases-alvo cobertas a uma profundidade suficiente—para diagnósticos germinativos, >95% das bases-alvo a 20× é o padrão mínimo, e >98% a 20× é o objetivo para dados de qualidade clínica.

Para a deteção de variantes somáticas no câncer, é necessária uma maior profundidade, uma vez que as mutações somáticas estão presentes a frequências alélicas mais baixas, dependendo da pureza do tumor. Com uma cobertura média de 150-200×, o WES detecta SNVs somáticos a 10-20% de frequência alélica com uma sensibilidade razoável. Para variantes de frequência mais baixa, são necessárias sequenciações mais profundas ou abordagens direcionadas. A relação entre a profundidade média, a frequência alélica e a sensibilidade de deteção segue uma distribuição de Poisson—para detectar uma variante a 5% de frequência alélica com 95% de confiança, é necessário pelo menos 200× de cobertura na posição da variante.

A uniformidade da cobertura (fold-80) afeta diretamente a quantidade de sequenciação necessária para alcançar estas métricas de profundidade. Uma biblioteca com fold-80 de 1,6 requer 40% menos sequenciação do que uma com fold-80 de 2,4 para alcançar a mesma percentagem de bases alvo a 20×. Isto torna a otimização do fold-80 uma das estratégias mais rentáveis para melhorar a eficiência dos projetos de WES. Requisitos de cobertura para projetos WES fornece um guia detalhado para o planeamento de profundidade para diferentes aplicações.

Planeamento prático de profundidadeA relação entre a profundidade média do alvo, o número de amostras e o custo de sequenciação segue um cálculo simples. Um kit de captura de exoma padrão tem como alvo 35-50 Mb. A uma profundidade média de 100×, isso requer 3,5-5 Gb de leituras no alvo. Com taxas de leitura no alvo de 60-75%, a sequenciação total necessária é de aproximadamente 5-8 Gb por amostra. Para um projeto de 96 amostras multiplexado em um fluxo de célula NovaSeq 6000 S4 que produz 1.000 Gb de dados, isso se traduz em aproximadamente 120-190 amostras por fluxo de célula, dependendo da eficiência no alvo. Para aplicações de LP-WES onde 30-50× é suficiente para triagem populacional, o custo por amostra pode ser reduzido em 50-60%. Esses cálculos devem ser validados em relação ao desempenho real do kit de captura selecionado e da plataforma de sequenciação antes de se comprometer com o orçamento em escala de projeto.

Figura 3: Profundidade de cobertura vs cobertura efetiva — o impacto do fold-80 na eficiência de sequenciação

Figure 3

Pipeline de Bioinformática WES — Ajustes Chave para Dados de Exoma

O pipeline de melhores práticas do GATK para descoberta de variantes requer ajustes específicos para dados de WES que diferem da análise de WGS. A cobertura não uniforme da WES baseada em captura introduz um viés sistemático que afeta múltiplas etapas do pipeline.

Ajustes de pré-processamentoAo contrário do WGS, onde a marcação de duplicados é principalmente para a remoção de duplicados de PCR, os dados de WES requerem um manuseio cuidadoso de duplicados porque o processo de captura em si produz uma proporção mais elevada de leituras duplicadas da mesma molécula de DNA original. Usar o Picard MarkDuplicates com a opção REMOVE_DUPLICATES=false (marcando mas não removendo) permite que ferramentas subsequentes tratem os duplicados de forma apropriada. A pré-indexação do arquivo BAM deduplicado é essencial para o processamento do GATK.

Chamada de variantes em dados de WESO GATK HaplotypeCaller deve ser executado com a flag --exome-mode para dados de WES, que ajusta a deteção de regiões ativas para levar em conta a cobertura não contígua dos alvos do exoma. Para a chamada de variantes somáticas em dados de WES pareados tumor-norma, o Mutect2 é o chamador recomendado. Um benchmark de 2025 na MDPI Biomolecules que comparou o Mutect2, Strelka2 e FreeBayes para WES somático descobriu que o Mutect2 alcançou a maior precisão (>95%), enquanto o Strelka2 obteve o maior recall (>90%) para SNVs. Para a análise de WES apenas de tumor (onde não está disponível um normal pareado), a sensibilidade diminui em 15-20% em comparação com a análise pareada, uma vez que variantes germinativas não podem ser distinguidas de mutações somáticas. O WES apenas de tumor é apropriado para triagens iniciais, mas a análise pareada é fortemente recomendada para estudos que exigem identificação precisa de variantes somáticas.

Ajustes de filtragem e anotação para WESO número inferior de leituras totais em WES em comparação com WGS significa que os limiares de filtragem de variantes devem ser ajustados em conformidade. Para WES germinativo, uma profundidade mínima de 10× e uma contagem mínima de alelos alternativos de 3 são critérios de filtragem padrão. Para WES somático, a filtragem a 20× com 5 leituras de suporte reduz os falsos positivos causados por artefatos de captura. Os pipelines de anotação para WES devem incluir bandeiras de cobertura a nível de gene indicando quais exões tiveram profundidade insuficiente para uma chamada de variante fiável — sem estas bandeiras, a falta de chamadas de variantes em um exão mal coberto poderia ser interpretada incorretamente como a ausência de uma mutação. As ferramentas de anotação VEP (Variant Effect Predictor) ou SnpEff geram estas anotações de cobertura quando fornecidas com o arquivo BED da região alvo de WES.

Deteção de CNV a partir de dados de WESA deteção de CNVs a partir de WES é fundamentalmente mais desafiadora do que a partir de WGS, uma vez que o processo de captura introduz uma cobertura não uniforme que varia entre amostras e entre lotes de captura. A abordagem padrão utiliza um referência agrupada de ≥30 amostras normais correspondentes para modelar o perfil de ruído específico da captura, e depois compara a cobertura de cada amostra com a referência. O ECOLE (2023, Nature Communications), um chamador de CNVs baseado em aprendizagem profunda, é especificamente projetado para dados de WES e alcança 20-30% menos falsos positivos do que os métodos convencionais.

Tempo de resposta e recursos computacionaisO processamento bioinformático padrão WES para um projeto de 96 amostras—desde o alinhamento FASTQ até a chamada de variantes, anotação e relatórios de QC—requer aproximadamente 8-16 horas em um cluster de computação com 32+ núcleos de CPU, ou 24-48 horas em uma estação de trabalho de alto desempenho com 16 núcleos e 64 GB de RAM. Os requisitos de armazenamento são aproximadamente 2-5 GB por amostra para arquivos BAM alinhados (compactados) e 200-500 MB por amostra para arquivos VCF e saídas de análise. Para projetos com mais de 500 amostras, recomenda-se o processamento em nuvem ou um cluster de computação local para gerenciar os tempos de execução.

Figura 4: Áreas de aplicação do WES — doença hereditária, genómica do cancro e biópsia líquida

Figure 4

Aplicações da WES em Genómica de Investigação e Clínica

Diagnóstico de doenças hereditáriasA WES baseada em trio (sequenciamento do probando e de ambos os pais) atinge taxas de diagnóstico de 25-50% para distúrbios genéticos suspeitos, com os maiores rendimentos em distúrbios neurodesenvolvimentais, epilepsia e anomalias congénitas. A taxa de descoberta de novas associações gene-doença acelerou-se com coortes de WES em grande escala, como o Projeto 100,000 Genomes e a Rede de Doenças Não Diagnosticadas. A estrutura analítica para WES diagnóstico segue um pipeline de filtragem sistemática: variantes raras (frequência populacional < 0,1%) são priorizadas, seguidas pela avaliação do impacto funcional previsto (nonsense, frameshift, splice site), compatibilidade com o padrão de herança e correspondência de fenótipo a nível de gene. Para WES apenas do probando, a taxa de diagnóstico cai para 15-30% devido à incapacidade de filtrar por herança, mas esta abordagem continua a ser comum em ambientes de pesquisa onde amostras parentais não estão disponíveis. Projetos de WES em escala populacional, como o conjunto de dados de exoma de 200,000 do UK Biobank, estão a permitir testes de carga a nível de gene que identificam novas associações de doenças ao agregar variantes raras dentro de genes em grandes coortes.

Genómica do cancroA sequenciação de exoma pareada tumor-normal é a abordagem padrão para identificar mutações somáticas driver, calcular a carga mutacional tumoral (TMB) e detectar assinaturas mutacionais. Para a avaliação da deficiência de recombinação homóloga (HRD) — um biomarcador preditivo para a terapia com inibidores de PARP — os scores de HRD baseados em sequenciação de exoma derivados de padrões de perda de heterozigosidade em todo o genoma foram validados em múltiplos tipos de câncer. Serviços de WES para Cancro incluir sequenciação pareada de tumor-normal com análise bioinformática para deteção de SNV somáticos, indels e CNVs.

Biópsia líquida WESUm estudo de 2025 na Nature Scientific Reports validou um ensaio de biópsia líquida de exoma/transcriptoma habilitado por IA (Caris Assure) que combina WES de DNA tumoral circulante com aprendizagem automática para deteção de múltiplos cancros. Embora o WES para ctDNA enfrente o desafio da baixa fração de DNA tumoral no plasma (frequentemente < 1%), os avanços recentes na química de captura híbrida e na desconvolução computacional estão tornando o WES de cfDNA cada vez mais viável para perfilagem de cancro não invasiva. Para cancros em estágios iniciais, onde a fração de ctDNA é mais baixa, a biópsia líquida baseada em WES atualmente requer profundidades mais elevadas (500-1.000× no alvo) para detectar o pequeno número de fragmentos derivados de tumor no pool de cfDNA. A principal inovação que permite o WES de cfDNA é o uso de identificadores moleculares únicos (UMIs) para colapsar duplicados de PCR em sequências de consenso, reduzindo dramaticamente o nível de ruído e permitindo a deteção precisa de variantes a partir de apenas 10-100 moléculas modelo por região alvo.

Análise e Interpretação de Dados WES — De Listas de Variações a Insights Biológicos

A saída de um pipeline de bioinformática WES é uma lista de variantes anotadas com a sua posição genómica, frequência alélica, impacto funcional e frequência populacional. Converter esta lista de variantes em descobertas biológicas ou clínicas interpretáveis requer uma estrutura sistemática de filtragem e priorização.

Interpretação de variantes germinativasPara estudos de doenças hereditárias, a cascata de filtragem começa por remover variantes com frequência populacional superior a 1% no gnomAD ou ExAC, retendo apenas variantes raras ou novas. Em seguida, as variantes são classificadas pelo impacto funcional previsto: variantes que truncam a proteína (nonsense, frameshift, sítio de splicing essencial) são priorizadas em relação a variantes missense, que requerem evidências adicionais de pontuações de conservação (PhyloP, GERP) e ferramentas de predição in silico (SIFT, PolyPhen-2, CADD). As variantes candidatas restantes são avaliadas quanto à compatibilidade com o padrão de herança (autossómica dominante, recessiva, ligada ao X, de novo) e à concordância com o fenótipo, utilizando ferramentas como Exomiser ou Phen2Gene. Serviços de interpretação de variantes fornecer pipelines de filtragem sistemática que integrem bases de dados populacionais, previsões funcionais e correspondência de fenótipos.

Interpretação de variantes somáticasA análise WES do câncer prioriza variantes com base na sua recorrência entre amostras dentro de um tipo de tumor, na sua presença no censo de genes do câncer COSMIC e no seu impacto previsto na função da proteína. A carga mutacional tumoral (TMB) é calculada como o número de mutações somáticas codificantes por megabase do genoma sequenciado. A TMB derivada do WES correlaciona-se bem com a TMB baseada em WGS e é utilizada como um biomarcador preditivo para a resposta à imunoterapia. A análise da assinatura mutacional—decompondo o espectro de mutações somáticas em padrões característicos associados a processos mutacionais específicos (por exemplo, atividade APOBEC, assinatura de fumo, dano UV)—é realizada utilizando ferramentas como SigProfiler ou MutationalPatterns e requer pelo menos 50-100 mutações somáticas em todo o genoma para uma atribuição de assinatura fiável.

Considerações sobre relatóriosOs relatórios de análise WES devem documentar não apenas as variantes encontradas, mas também o desempenho da cobertura na região-alvo. Um padrão comum de relatório inclui o número de alvos de exões com cobertura insuficiente para a chamada de variantes (<10× para germinativas, <20× para somáticas), a métrica de uniformidade fold-80 e a taxa geral de cobertura na região-alvo. As variantes reportadas a partir de exões com cobertura deficiente devem ser sinalizadas como de baixa confiança na saída. Para relatórios clínicos de WES, devem ser seguidas as diretrizes da ACMG para a classificação de variantes (patogénica, provavelmente patogénica, VUS, provavelmente benigna, benigna), com evidências de suporte documentadas para cada nível de classificação.

Principais Desafios Técnicos em Projetos de WES

Variação de captura entre lotesA eficiência de captura híbrida varia entre lotes devido a diferenças no lote de reagentes, perfis de temperatura de hibridização e técnica do operador. Este efeito de lote introduz diferenças sistemáticas na uniformidade de cobertura que podem mimetizar variação biológica em análises subsequentes. O benchmark de 2024 da BMC Genomics descobriu que a variação entre lotes representava 5-15% da variabilidade da cobertura em exões individuais, mesmo dentro do mesmo kit. A prática padrão é processar todas as amostras de um projeto dentro do menor número possível de lotes de captura, para capturar controles equilibrados entre lotes, e incluir amostras replicadas entre lotes para avaliação da variação técnica.

viés GCRegiões de alto GC (>65% GC), que incluem muitas regiões promotoras e primeiros exões de genes de manutenção, estão significativamente sub-representadas em dados de WES porque o DNA rico em GC tem uma eficiência de hibridação mais baixa e uma estrutura secundária mais elevada que impede a captura. Iscas enviesadas para GC que incluem nucleotídeos degenerados ou bases modificadas podem compensar parcialmente, mas alguns exões ricos em GC falham consistentemente em alcançar a cobertura alvo em todos os kits comerciais. Essas lacunas sistemáticas de cobertura devem ser identificadas e documentadas nos métodos de análise, uma vez que variantes nessas regiões não podem ser avaliadas de forma fiável a partir dos dados de WES.

artefatos FFPEAs amostras FFPE têm ADN fragmentado (tamanho médio < 300 bp) e bases desaminadas devido à ligação cruzada com formalina. A fragmentação reduz a eficiência de captura porque fragmentos mais curtos hibridizam de forma menos estável aos baits—um fragmento de 150 bp tem aproximadamente 70% da eficiência de captura de um fragmento de 300 bp em condições de hibridização padrão. Aumentar a entrada de ADN (200-500 ng para FFPE contra 50-100 ng para tecido fresco) e reduzir a temperatura de hibridização para 60°C compensa parcialmente, mas os dados de WES de FFPE apresentam consistentemente menor uniformidade de fold-80 e taxas de duplicação mais altas do que os dados de tecido fresco congelado. Para projetos que envolvem amostras FFPE arquivadas, validar a eficiência de captura numa amostra de teste antes de se comprometer com a preparação de biblioteca em larga escala pode identificar se a qualidade do ADN é suficiente para as métricas de cobertura necessárias.

Acumulação de duplicados de PCRAs bibliotecas WES têm taxas de duplicação de PCR inerentemente mais altas do que as bibliotecas WGS porque a etapa de captura concentra a capacidade de sequenciação numa pequena região-alvo, amplificando qualquer viés de amplificação da biblioteca. Taxas de duplicação acima de 25% indicam que a complexidade da biblioteca—o número de fragmentos de DNA únicos disponíveis para sequenciação—é insuficiente para a profundidade alvo. Isso resulta tipicamente de uma baixa entrada de DNA (<50 ng para protocolos padrão) ou de um excesso de ciclos durante a amplificação de PCR pré-captura. Reduzir os ciclos de PCR de 14-16 para 10-12 na etapa de PCR pré-captura, combinado com o uso de 100-200 ng de DNA de entrada, pode reduzir as taxas de duplicação abaixo de 15% enquanto mantém um rendimento suficiente da biblioteca para a captura.

Métricas de QC para Dados WES

MétricoValor AlvoMínimo AceitávelImpact se falhar
Cobertura média do alvo≥100× (germinativo) / ≥200× (somático)≥80×Sensibilidade reduzida na chamada de variantes
% Bases alvo a 20×≥95%≥90%Cobertura desigual → variantes perdidas em exões com baixa cobertura
Taxa de acerto≥70%≥60%Orçamento de sequenciação desperdiçado em leituras não-alvo
Dobra-80≤2,0≤2,5Alta não uniformidade → profundidade insuficiente para os exões-alvo
Taxa de duplicação≤15%≤25%Profundidade efetiva reduzida; pode indicar baixo input de DNA.

A tabela de métricas de QC serve como uma lista de verificação prática para avaliar os dados de WES antes de prosseguir com a análise posterior. Uma amostra que fique abaixo do limite mínimo aceitável para qualquer uma destas métricas deve ser sinalizada para potencial repetição de sequenciação ou exclusão da análise. Em estudos de grandes coortes, é comum rejeitar 3-5% das amostras na fase de QC, e esta taxa de rejeição esperada deve ser considerada no planeamento do tamanho da amostra do projeto para garantir números suficientes de amostras após a filtragem de QC.

Figura 5: Análise de dados WES e pipeline de filtragem — desde leituras brutas até variantes anotadas

Figure 5

Figura 6: Pirâmide de avaliação da qualidade dos dados WES — hierarquia de métricas de QC desde a entrada da amostra até a saída de variantes

Figure 6

Perguntas Frequentes

Qual a profundidade de sequenciamento necessária para WES?
Para a deteção de SNV germinativos, uma cobertura média de 100× é padrão. Para a deteção de variantes somáticas em câncer, recomenda-se 150-200×. A métrica chave é a fração de bases alvo com profundidade suficiente—>95% dos alvos a 20× para a análise germinativa.

O que é o fold-80 e por que é importante?
O fold-80 mede a uniformidade de cobertura nas regiões-alvo. Um fold-80 de 1,0 significa uniformidade perfeita; um fold-80 mais baixo significa que é necessário menos sequenciamento para cobrir todos os exões-alvo na profundidade requerida. É a métrica mais acionável para avaliar a eficiência da captura em WES.

O WES pode detectar CNVs?
Sim, mas com menor sensibilidade do que WGS devido à cobertura não uniforme do enriquecimento baseado em captura. A deteção de CNV a partir de WES requer um conjunto de referência de ≥30 amostras normais e ferramentas especificamente projetadas para dados de WES, como ECOLE ou CNVkit com construção de referência apropriada.

Como é que a qualidade da amostra FFPE afeta os resultados do WES?
As amostras FFPE produzem DNA fragmentado que reduz a eficiência de captura e a uniformidade de cobertura. O Fold-80 aumenta tipicamente em 20-30% para FFPE em comparação com amostras frescas congeladas. Aumentar a entrada de DNA e utilizar protocolos de captura otimizados para FFPE pode mitigar parcialmente isso.

Devo usar WES apenas do tumor ou WES pareado tumor-normal para análise do câncer?
A WES pareada tumor-normal permite a distinção entre mutações somáticas e variantes germinativas herdadas, reduzindo as taxas de falsos positivos e permitindo a deteção de artefatos de hematopoiese clonal. A WES apenas de tumor tem uma sensibilidade 15-20% inferior para a deteção de variantes somáticas, mas pode ser utilizada para triagem quando o tecido normal correspondente não está disponível.

Qual é o rendimento diagnóstico do WES para distúrbios genéticos?
O WES baseado em trio atinge taxas de diagnóstico de 25-50% para desordens genéticas suspeitas, com os maiores rendimentos em desordens neurodesenvolvimentais e anomalias congénitas. O WES apenas para o probando tem taxas de diagnóstico mais baixas (15-30%).

Referências

  1. Avaliação comparativa de quatro soluções de enriquecimento de exoma em 2024. BMC Genómica. 2025;26:11196.
  2. Métodos, aplicações e desafios computacionais na enriquecimento por captura de iscas. Cell Reports Métodos2025;5:100210.
  3. OLTA: Otimização da seleção de isco para sequenciação direcionada. Bioinformática2025;41:btaf146.
  4. Avaliação comparativa do Mutect2, Strelka2 e FreeBayes para deteção de variantes somáticas a partir de WES. Biomoléculas2025;15:1532.
  5. Validação de um ensaio de biópsia líquida de exoma/transcriptoma habilitado por IA. Nature Relatórios Científicos2025;15:8986.
  6. ECOLE: Aprender a identificar variantes do número de cópias em dados de WES. Comunicações da Natureza. 2023;14:44116.

Apenas para fins de investigação, não destinado a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo