Baixa Frequência vs. Alta Cobertura em WGS: Escolhendo a Profundidade de Sequenciação Certa para os Seus Objetivos de Investigação e Orçamento
O Espectro de Profundidade — O que Cada Nível de Cobertura Realmente Oferece
Um geneticista de populações que planeia um GWAS em 2.000 acessões de soja pergunta: "Posso ficar-me por 1× de cobertura e imputação, ou preciso de 10×?" Um laboratório de genómica do câncer que acompanha a evolução clonal em 500 células únicas pergunta: "30× é suficiente, ou preciso de 60×?" Um biólogo da conservação com uma bolsa de $15.000 pergunta: "Quantos genomas individuais posso sequenciar a que profundidade antes de ficar sem dinheiro?"
Estes três investigadores partilham uma questão formulada de três maneiras: que profundidade de sequenciação realmente preciso? A resposta nunca é um único número — é uma função da questão biológica, do tipo de variante de interesse, do painel de referência disponível e do orçamento. Este guia fornece as evidências, modelos de custo e um quadro de decisão para responder a isso.
A CD Genomics fornece Sequenciação do Genoma Completo em cada nível de profundidade — desde ultra-baixa passagem (0,5×) para GWAS potenciados por imputação até profundo (30×+) para a construção de painéis de referência — permitindo que os projetos ajustem a profundidade precisamente aos objetivos de pesquisa sem pagarem a mais por cobertura que não necessitam.
A profundidade de sequenciamento (ou cobertura) é o número médio de vezes que cada base no genoma é lida pelo sequenciador. Com uma cobertura de 1×, cada base é lida uma vez em média — mas a distribuição de Poisson da amostragem de leituras significa que aproximadamente 37% das bases não são lidas de todo. Com 30×, mais de 99,9% das bases são cobertas por pelo menos uma leitura, e a profundidade média em locais de variantes heterozigóticas é de aproximadamente 15 leituras — suficiente para distinguir verdadeiros heterozigotos de erros de sequenciamento com alta confiança.
A profundidade não é binária. Cinco níveis operacionais definem quais variantes podem ser detetadas e quais perguntas podem ser respondidas:
| Camada | Cobertura | Frações do Genoma Cobertas (≥1 leitura) | Precisão do Genótipo Heterozigoto | Custo/Sample (Humano, 2025) | Melhor Para |
|---|---|---|---|---|---|
| Filtro passa-baixas ultra-baixo | 0,1–0,5× | 10–40% | Não chamado diretamente (imputação) | 15–30€ | Ancestria em escala de biobanco, escores poligénicos (PGS), rastreio amplo de CNV |
| Filtro passa-baixas + imputação | 0,5–4× | 40–98% | Imputado: r² 0,85–0,95 para SNPs comuns | 30–100€ | GWAS de variantes comuns, seleção genómica, estrutura populacional |
| Cobertura padrão | 10–15× | >99,9% | Chamado: >99% para SNPs | 150–250€ | Escaneamentos de seleção, inferência demográfica, descoberta de SNP raros (MAF >2%) |
| Cobertura profunda | 25–35× | >99,99% | Chamado: >99,9% para SNPs | 250–400€ | Construção de painel de referência, variantes raras de alta confiança (MAF 0,1–2%) |
| Ultra-fundo | 50×+ | >99,999% | Chamado: >99,99% | 500–1.200+ € | Mosaicismo somático, WGS de célula única, pares tumorais-normais, biópsia líquida |
A variável crítica não é a cobertura em si, mas a precisão do genótipo nas classes de variantes que importam para a sua questão. Um genoma imutado a 0,5× contra um painel de referência bem ajustado de 150.000 haplótipos pode alcançar r² > 0,90 para SNPs comuns (MAF > 5%) — rivalizando ou superando a precisão de um array de SNPs de 500K (Rubinacci et al., 2023). Um benchmark de Ecologia Molecular de 2026 por Atsawawaranunt et al. demonstrou que métodos de representação reduzida (RADseq) produzem sinais de seleção falso-positivos impulsionados pela perda de locos em populações específicas — erros que o WGS, mesmo com baixa cobertura, resolve porque a amostragem em todo o genoma capta todo o espectro de frequência alélica em vez de um subconjunto enviesado. Diferentes profundidades permitem diferentes biologias, e diferentes métodos apresentam diferentes pontos cegos.
WGS de Baixa Passagem (0,5–4×) — Genotipagem Sem Quebrar o Banco
O sequenciamento de genoma completo de baixa passagem (lpWGS) sequencia todo o genoma com uma cobertura de 0,5× a 4× e depois utiliza imputação estatística — inferindo genótipos não observados a partir de um painel de referência de haplótipos totalmente sequenciados — para preencher os dados em falta. A abordagem amadureceu rapidamente desde 2023, impulsionada por três desenvolvimentos: o motor de imputação GLIMPSE2, que alcança uma escalabilidade computacional sublinear tanto em número de amostras como em número de marcadores (processando um genoma 1× contra 150.000 haplótipos em ~11 horas a menos de 0,10 dólares por genoma); a disponibilidade de grandes painéis de referência ajustados à população (UK Biobank, gnomAD, All of Us, 1000 Genomes para humanos; painéis específicos de raças e populações para espécies agrícolas); e a convergência dos custos de sequenciamento ao ponto em que o WGS 1× custa menos do que um array SNP de densidade média, ao mesmo tempo que fornece cobertura em todo o genoma sem viés de seleção.
Como a Imputação Faz o Baixo Passar Funcionar
A imputação a partir de dados de baixa cobertura é fundamentalmente diferente da imputação a partir de arrays de SNP. A imputação baseada em arrays começa com 500K–2M genótipos conhecidos e preenche lacunas através do emparelhamento de haplótipos. A imputação de baixa cobertura começa a partir de probabilidades de genótipos esparsas, em todo o genoma — cada posição no genoma tem alguma probabilidade de cada genótipo, derivada do punhado de leituras que a sobrepõem. Esta entrada mais rica, combinada com o modelo oculto de Markov de Li-Stephens no núcleo do GLIMPSE2, produz genótipos imputados mais precisos do que a imputação baseada em arrays para variantes comuns e de baixa frequência, particularmente em populações sub-representadas em arrays comerciais.
Três ferramentas definem o atual panorama de imputação lpWGS:
- GLIMPSE2 (Rubinacci et al., 2023): O estado da arte. Requer um painel de referência em fases (haplótipos em fases SHAPEIT5). Escala de forma sublinear. Recomendada para profundidade ≥0,5×. Desempenha melhor com painéis de referência de >1.000 haplótipos. O
--Ko parâmetro (número de estados de condicionamento) deve ser aumentado para 2.000–4.000 para populações com alta diversidade genética.
- QUILT (Davies et al., 2021): Alternativa ao GLIMPSE2 que apresenta desempenho comparável a profundidades ≥0,5×. Utiliza uma abordagem algorítmica diferente (HMM diploide que incorpora simultaneamente tanto os haplótipos de referência como a informação de leitura). O QUILT e o GLIMPSE2 alcançam precisão comparável para inferência de ancestralidade ampla a profundidades tão baixas quanto 0,15×, mas ambos requerem ≥0,5× para chamadas de genótipos fiáveis adequadas para GWAS (Rubinacci et al., 2023; Wasik et al., 2021).
- STITCH (Davies et al., 2016): Imputação sem referência — não requer um painel de referência faseado. Em vez disso, aproveita os padrões de desequilíbrio de ligação diretamente dos dados de sequenciação de baixa cobertura em muitas amostras. Isso torna o STITCH especialmente valioso para organismos não modelo sem painel de referência, mas requer tamanhos de amostra maiores (≥100 indivíduos) e maior cobertura (≥2×) para alcançar uma precisão comparável aos métodos baseados em referência. Um estudo de aquicultura de 2026 descobriu que o STITCH teve um desempenho inferior ao GLIMPSE2 para variantes de baixa frequência em caranguejo de lama, mas foi adequado para GWAS de variantes comuns quando não existia painel de referência.
O que o WGS de Passa-Baixa Detecta — e o que Ele Perde
| Classe Variante | Deteção a 0,5–1× | Deteção a 2–4× | Notas |
|---|---|---|---|
| SNPs comuns (MAF >5%) | Excelente (r² >0,90 via imputação) | Excelente (r² >0,95) | Comparável a um array de SNP de 500K a 1× |
| SNPs de baixa frequência (MAF 1–5%) | Bom (r² 0,75–0,85) | Muito bom (r² 0,85–0,93) | A qualidade do painel de referência é o gargalo. |
| SNPs raros (MAF 0,1–1%) | Pobre (r² <0,50) | Moderado (r² 0,50–0,70) | Requer um painel de referência grande, ajustado à população. |
| SNPs privados/novos | Indetetável | Muito pobre | Não recuperável por imputação — necessidade de chamada de novo a ≥10× |
| CNVs grandes (>1 Mb) | Detectável | Bom | cn.mops, o CNVkit pode chamar de 0,5–1× |
| CNVs pequenos (<100 kb) | Pobre | Moderado | A resolução melhora com a profundidade. |
| Variantes estruturais | Pobre | Pobre–Moderado | Requer ≥10× para chamada de SV fiável |
A implicação prática: se a sua questão de pesquisa é impulsionada por variantes comuns e de baixa frequência — GWAS de traços complexos, predição genómica em populações de reprodução, análise de estrutura populacional ou inferência de ascendência — o sequenciamento genómico de baixo custo (low-pass WGS) a 1–2× com imputação oferece um poder estatístico comparável ao sequenciamento genómico profundo (deep WGS) a uma fração do custo. Se a sua questão depende de variantes raras, privadas da população ou de novo, o low-pass é a ferramenta errada.
Custo-Efetividade: A Vantagem do Filtro Passa-Baixo em Números
Considere um orçamento fixo de 50.000 dólares para um projeto genómico em escala humana (3 Gb):
| Estratégia de Profundidade | Amostras Sequenciáveis | Poder de GWAS de SNP Comuns | Deteção de Variantes Raras | Reutilização Futura |
|---|---|---|---|---|
| 30× WGS profundo | ~170 | Bom (moderado N) | Excelente | Máximo |
| 10× WGS padrão | ~330 | Melhor | Bom | Alto |
| 1× lpWGS + imputação | ~1.600 | Melhor (alto N) | Nenhum | Moderado |
| 2× lpWGS + imputação | ~800 | Muito bom | Pobre | Moderado |
Para o poder de GWAS de variantes comuns, o tamanho da amostra domina a cobertura além de ~1×. Sequenciar 1.600 indivíduos a 1× encontrará mais associações reais de GWAS do que 170 indivíduos a 30× — esta é a ideia central que tem impulsionado a adoção de lpWGS em programas de biobanco e de melhoramento agrícola desde 2023.
CD Genomics' Sequenciação Genómica Superficial o serviço fornece lpWGS nas plataformas Illumina e MGI com pipelines de imputação padronizados (GLIMPSE2 + painéis de referência faseados SHAPEIT5), entregando chamadas de genótipos prontas para análise para GWAS, seleção genómica e análise de estrutura populacional. Para projetos que combinam triagem de baixa cobertura com validação profunda focada, a CD Genomics' Genotipagem de SNPs em Genoma Completo o serviço oferece validação ortogonal dos genótipos imputados em loci selecionados.
Figura 1: Fluxo de Trabalho WGS de Baixa Passagem e Precisão de Imputação — Uma ilustração de 3 painéis. Painel esquerdo: Um esquema do fluxo de trabalho lpWGS — leituras esparsas ao longo de um segmento de cromossoma, cálculo da probabilidade de genótipo em cada posição, imputação contra um painel de referência faseado, saída de genótipos imputados com dosagem e pontuações de qualidade. Painel central: Um gráfico de linhas mostrando a precisão da imputação (r² no eixo Y) vs frequência do alelo menor para três níveis de cobertura (0,5×, 1×, 2×), demonstrando a queda de precisão dependente da MAF. Painel direito: Um gráfico de barras comparando o poder GWAS para WGS 30× em 200 amostras vs lpWGS 1× em 2.000 amostras para um traço poligénico simulado, mostrando que lpWGS com um N maior supera o WGS profundo com um N menor.
Cobertura Padrão (10–30×) — O Cavalo de Batalha da Re-Secagem
A cobertura padrão de WGS a 10–30× é o padrão para projetos onde os genótipos individuais devem ser chamados — não imputados — com alta confiança. A 10×, aproximadamente 99,5% do genoma está coberto por pelo menos uma leitura; a 30×, a cobertura é essencialmente completa (>99,99%) e as chamadas heterozigóticas são suportadas por uma mediana de 15 leituras, proporcionando o poder estatístico para distinguir verdadeiros heterozigotos de erros de sequenciação com uma precisão superior a 99,9% (DePristo et al., 2011).
O que a Cobertura Padrão Permite
Descoberta de SNP e indels de novo. Ao contrário das abordagens baseadas em imputação, a cobertura padrão suporta a chamada de variantes por amostra com GATK HaplotypeCaller ou DeepVariant, detectando variantes sem depender de um painel de referência. Isto é essencial para organismos não-modelo, populações admistas e estudos onde variantes novas ou privadas de população são o foco principal. O ganho de sensibilidade de 10× para 30× é substancial para variantes raras: a 10×, um SNP heterozigótico com MAF de 0,5% é chamado em aproximadamente 85% dos portadores; a 30×, isso sobe para >97% (Zhao et al., 2020).
Inferência genética populacional. Os scans de seleção (XP-CLR, iHS, nSL), a reconstrução demográfica (PSMC, MSMC2, Stairway Plot 2) e as estatísticas de diferenciação populacional (Fst, D-estatística) beneficiam todos de genótipos chamados em vez de dosagens imputadas — particularmente quando a análise envolve espectros de frequência alélica, onde a imputação pode suavizar ou distorcer a distribuição de frequência do sítio em frequências baixas. Para a análise PSMC, que requer chamadas de heterozigotos em um único genoma diploide, 15–20× é o mínimo prático.
Deteção de variantes estruturais. A chamada de SV fiável requer profundidade de leitura, sinais de leitura dividida e discórdia de pares que são escassos ou ausentes em baixa cobertura. Manta, Delly e Lumpy — os chamadores de SV padrão — alcançam >80% de sensibilidade para deleções >1 kb e duplicações >5 kb a 15× em um genoma de 3 Gb; a 30×, a sensibilidade para as mesmas classes de SV ultrapassa 95%. Para estudos focados em SV, uma cobertura abaixo de 15× introduz uma taxa inaceitavelmente alta de falsos negativos.
Quando 10× É Suficiente, Quando 30× É Necessário
| Aplicação | 10× Suficiente? | 15× Suficiente? | 30× Recomendado? |
|---|---|---|---|
| Chamadas de SNP (comuns, MAF >5%) | Sim | Sim | Excesso |
| Chamada de SNP (rara, MAF <1%) | Marginal | Adequado | Sim |
| Chamada de indels (<50 pb) | Marginal | Adequado | Sim |
| Deteção de SV (>1 kb) | Marginal | Adequado | Sim |
| Inferência demográfica PSMC | Não (≥18×) | Marginal | Sim |
| Chamada de haplótipos HLA/faseados | Não | Não | Sim |
| Deteção de mutações de novo (trio) | Não | Não | Sim (≥30× por amostra) |
| Construção do painel de referência | Não | Não | Sim |
Uma regra prática: para a descoberta de variantes de nucleotídeo único em espécies com painéis de referência existentes, 10× é rentável. Para qualquer análise que envolva indels, variantes estruturais, faseamento ou variantes raras, orce para 30×. O custo marginal de passar de 10× para 30× — cerca de 100 a 200 dólares por amostra com os preços atuais — proporciona ganhos desproporcionais na sensibilidade de deteção de variantes e na utilidade futura dos dados.
Uma aplicação representativa: o projeto de pangenoma de soja do USDA-ARS re-sequenciou 300 Glycine max acessões a 15× para caracterizar a diversidade nucleotídica (π), identificar varreduras seletivas via XP-CLR e reconstruir o gargalo de domesticação com PSMC. A 15×, os genótipos chamados alcançaram >99% de concordância com WGS profundo para SNPs com MAF >2%, e o MSMC2 recuperou com sucesso o conhecido gargalo de domesticação de ~8.000 anos — análises que teriam sido pouco confiáveis com genótipos imputados a 1×. Para a inferência genómica populacional que depende de espectros de frequência alélica em vez de chamadas de genótipos a nível individual, 15× representa um ponto de equilíbrio pragmático entre custo e qualidade dos dados.
Figura 2: Cobertura vs. Sensibilidade de Detecção de Variação — Um gráfico de múltiplas linhas mostrando a sensibilidade de detecção de variações (eixo Y, 0–100%) em função da profundidade de sequenciamento (eixo X, 1× a 60×). Cinco curvas representando diferentes classes de variações: SNPs homozigóticos (amarelo, >95% a 5×), SNPs heterozigóticos (azul, >95% a 15×), pequenas indels de 1–10 bp (verde, >90% a 20×), grandes deleções >1 kb (laranja, >90% a 25×) e mutações de novo (vermelho, >90% a 40×). Linhas de referência verticais tracejadas em 10× e 30×. Fundo branco limpo, estética de plotagem científica, linhas de grade mínimas.
Alta Cobertura (30×+) — Variantes Raras, Mutacões Somáticas e Genomas de Grau de Referência
O WGS profundo a ≥30× ocupa um nicho distinto: é necessário quando as variantes de interesse são individualmente raras, adquiridas somaticamente ou devem servir como um recurso de referência comunitário para anos de reanálise.
Teste de Associação de Variantes Raras
Variantes raras (MAF <1%) contribuem desproporcionalmente para a hereditariedade em falta de traços complexos e são os principais alvos de testes de associação baseados em genes (SKAT-O, testes de carga). A identificação de uma variante heterozigótica rara requer uma profundidade de leitura suficiente para distinguir o alelo alternativo do erro de sequenciação: a 30×, um sítio heterozigótico tem uma profundidade mediana do alelo alternativo de 15 leituras, e a probabilidade de observar ≥3 alelos alternativos apenas devido a erro de sequenciação (qualidade da base Q30 → taxa de erro de 0,1%) num sítio homozigótico de referência é aproximadamente 10⁻⁶. A 10×, a mesma probabilidade sobe para ~10⁻³, produzindo chamadas de variantes raras falso-positivas que diluem os sinais de associação. Para testes de carga de variantes raras em coortes de >1.000 indivíduos, a taxa de descoberta falsa de variantes raras a 10× é 3–5× superior à de 30×, reduzindo diretamente o poder estatístico.
Construção do Painel de Referência
Painéis de referência de imputação de alta qualidade — a espinha dorsal das estratégias de WGS de baixa cobertura — são eles próprios construídos a partir de genomas sequenciados em profundidade. O painel de referência gnomAD utiliza WGS Illumina sem PCR a 30×; a fase de alta cobertura do Projeto 1000 Genomas utilizou 30×; o TOPMed utiliza 30–38×. A lógica é circular, mas sólida: é necessário um número relativamente pequeno de genomas sequenciados em profundidade para desbloquear a eficiência de custo do sequenciamento de baixa cobertura para milhares mais. Para organismos não-modelo, sequenciar 50–100 indivíduos geneticamente representativos a ≥25× e fazer a fase com SHAPEIT5 fornece um painel de referência personalizado suficiente para imputar a coorte restante a 1–4× com >94% de concordância, como demonstrado em morangos allo-octoploides (Koorevaar et al., 2025).
Deteção de Mutação Somática
A genómica do cancro, a investigação sobre o envelhecimento e os estudos de evolução clonal requerem a distinção entre variantes somáticas verdadeiras — presentes numa fração de células — e heterozigotos germinativos e erros de sequenciação. A 30×, uma variante somática presente em 10% das células tem uma profundidade mediana de alelos alternativos de 1,5 leituras — no limite da detectabilidade. A 60×, essa mesma variante tem uma profundidade alternativa mediana de 3 leituras, ultrapassando o limiar mínimo padrão para a chamada somática (≥3 leituras de suporte). Para WGS de célula única ou deteção de variantes somáticas de ultra-baixa frequência, 60–100× é o padrão operacional.
A CD Genomics oferece sequenciação genómica completa (WGS) a 30× nas plataformas Illumina NovaSeq e DNBSEQ através da sua Sequenciação do Genoma Completo serviço, com complemento opcional de leitura longa através de Serviços de Sequenciação de Leitura Longa para resolução de variantes estruturais e faseamento de haplótipos.
Os Custos Ocultos da Profundidade — Armazenamento, Cálculo e Tempo
A profundidade de sequenciamento não é apenas um custo de reagentes — gera um volume de dados proporcional, uma carga de armazenamento e um tempo de computação. Estes custos ocultos muitas vezes superam o custo do sequenciamento ao longo do ciclo de vida de um projeto.
Geração de Dados em Cada Nível de Profundidade
| Profundidade | Tamanho FASTQ (Genoma de 3 Gb) | Tamanho BAM | Tamanho da CRAM | Total por Amostra | 1.000 Amostras |
|---|---|---|---|---|---|
| 0,5× | ~1,5 GB | ~1 GB | ~0,5 GB | ~3 GB | ~3 TB |
| 1× | ~3 GB | ~2 GB | ~1 GB | ~6 GB | ~6 TB |
| 4× | ~12 GB | ~8 GB | ~4 GB | ~24 GB | ~24 TB |
| 10× | ~30 GB | ~20 GB | ~10 GB | ~60 GB | ~60 TB |
| 30× | ~90 GB | ~60 GB | ~30 GB | ~180 GB | ~180 TB |
| 60× | ~180 GB | ~120 GB | ~60 GB | ~360 GB | ~360 TB |
O formato CRAM reduz o armazenamento de alinhamento em 40–50% em comparação com BAM. Para dados de genótipo, o formato PGEN (PLINK 2.0) alcança 98% de compressão em comparação com VCF em texto plano — uma matriz de genótipo de 2 TB torna-se ~40 GB. Estas escolhas de formato não são cosméticas; para um projeto de 1.000 amostras a 30×, escolher CRAM + PGEN desde o início economiza aproximadamente 100 TB de armazenamento, traduzindo-se em $25.000–50.000 em custos de armazenamento em nuvem ao longo de um ciclo de vida de projeto de 5 anos.
Os Custos de Cálculo Escalam com a Profundidade
O alinhamento com o BWA-MEM2 escala aproximadamente de forma linear com a contagem de leituras — um genoma de 30× leva aproximadamente 30× mais tempo para alinhar do que um genoma de 1×. A genotipagem conjunta com o GATK escala de forma menos favorável: o tempo de processamento do GenomicsDBImport é aproximadamente proporcional ao número de locais variantes, que por sua vez escala de forma sublinear com a profundidade (retornos decrescentes além de ~15× para a descoberta de SNPs), mas o tempo de execução do GenotypeGVCFs escala tanto com a contagem de amostras quanto com a profundidade. Para uma coorte de 1.000 amostras a 10×, a genotipagem conjunta requer aproximadamente 500 horas de núcleo e 500 GB de RAM; a 30×, a mesma coorte requer aproximadamente 1.500 horas de núcleo e 1 TB de RAM — um aumento de custo computacional de 3× para um ganho de 2× na sensibilidade a variantes raras.
A Decisão entre a Nuvem e HPC em Diferentes Profundidades
Para projetos com cerca de 200 amostras a ≤10×, a computação em nuvem (AWS, Google Cloud) é competitiva em termos de custo com HPC local e evita custos de infraestrutura iniciais. Para projetos que excedem 500 amostras a ≥30×, o HPC local com armazenamento paralelo (Lustre, GPFS) amortiza para um custo por amostra mais baixo, mas requer um investimento inicial de seis dígitos. Uma solução prática intermédia: usar instâncias spot/preemptíveis na nuvem para alinhamento por amostra (embaraçosamente paralelo), e depois instâncias locais ou reservadas na nuvem para genotipagem conjunta (intensiva em memória, mais difícil de paralelizar).
Estrutura de Decisão — Alinhamento da Profundidade à Sua Questão de Pesquisa
A escolha da profundidade de sequenciação deve ser guiada por quatro perguntas, respondidas por ordem:
- Qual classe de variantes responde à sua questão biológica? SNPs comuns (MAF >5%) → 0,5–2× + imputação é suficiente. SNPs raros (MAF <1%) → ≥15× necessário. Variantes estruturais → ≥20×. Mutacões somáticas → ≥60×. Mutacões de novo → ≥30× em trios.
- Tem um painel de referência ajustado à população? Sim, com >1.000 haplótipos → lpWGS a 0,5–2× é viável. Sem painel de referência → duas opções: (a) sequenciar 50–100 indivíduos a ≥25× para construir um painel personalizado, e depois sequenciar o restante a 1–4×; ou (b) sequenciar todas as amostras a ≥10× para genótipos chamados sem imputação.
- Qual é o seu orçamento por amostra? <$50 → 0,5–1× lpWGS. $50–100 → 1–4× lpWGS. $100–250 → 10–15× padrão. $250–400 → 30× profundo. Acima de $400/amostra → aplicações ultra-profundas especializadas.
- Como é que os dados serão utilizados no futuro? Se o conjunto de dados for reanalisado durante anos, combinado com outras coortes ou servir como um recurso comunitário → invista em ≥30× para máxima flexibilidade. Se a análise for de um único propósito (um GWAS, uma publicação) → lpWGS a 1–2× é a escolha mais rentável.
Tabela de Decisão Rápida
| O seu Cenário | Profundidade Recomendada | Justificação |
|---|---|---|
| GWAS, N >2.000, painel humano/match populacional | 0,5–1× lpWGS | Potência de variante comum impulsionada por N, não pela profundidade. |
| GWAS, N 200–500, espécies não-modelo, sem painel | 10–15× padrão | Necessitam-se genótipos; imputação não viável. |
| Estrutura populacional + demografia, 10–30 por população | 10–15× | PSMC, Fst e π beneficiam de genótipos chamados. |
| Seleção genómica, programa de melhoramento | 1–4× lpWGS + painel personalizado | Maximizar N; imputação validada na agricultura |
| Teste de carga de variantes raras, caso-controle | 30× | Chamadas de MAF baixas requerem alta profundidade. |
| Construção do painel de referência | 25–35× | Recurso comunitário; maximiza a precisão da imputação a jusante. |
| Mosaicismo somático / célula única | 60×+ | Chamadas de VAF baixo requerem profundidade extrema. |
| Triagem apenas de CNV, grande coorte | 0,5–1× lpWGS | CNVs grandes detectáveis a uma profundidade muito baixa |
| descoberta SV | 20–30× | A sensibilidade da Manta/Delly cai abaixo de 15×. |
| Montagem de novo (genoma de referência) | 30–50× HiFi + 15–20× ONT | Veja o nosso Guia de Sequenciação Genómica De Novo |
Figura 3: Fluxograma de Decisão de Profundidade de WGS — Um diagrama de decisão visual que mapeia questões de pesquisa a profundidades de sequenciamento recomendadas. Começando de cima: (1) "Que classe de variantes responde à sua questão?" ramifica-se para SNPs Comuns → Baixa Profundidade, SNPs/SVs Raros → Padrão/Profundo, Somático → Ultra-Profundo. (2) "Painel de referência disponível?" ramifica-se para Sim → lpWGS + imputação, Não → Padrão ou construir painel personalizado. (3) "Orçamento por amostra?" com limiares em dólares mapeados para níveis de profundidade. (4) "Reutilização futura?" ramifica-se para Sim → 30× Profundo, Não → igualar profundidade à questão imediata. Nós terminais codificados por cores de acordo com o nível de profundidade: azul claro (0,5–4×), azul médio (10–15×), azul escuro (30×), azul marinho (60×+). Estilo infográfico moderno e plano, fundo branco, tipografia limpa sem serifa.
A Abordagem Híbrida — Misturando Profundidades num Só Projeto
Os designs em grande escala mais rentáveis costumam combinar níveis de profundidade dentro de um único projeto. Três estratégias híbridas validadas:
Painel de referência + coorte de descoberta. Sequenciar 10–20% das amostras a ≥25× para construir um painel de referência de haplótipos personalizado; sequenciar os restantes 80–90% a 1–4× e imputar contra o painel personalizado. Esta estratégia proporcionou uma concordância de imputação de 94–98% em morango allo-octoploide utilizando ~70 indivíduos de referência a ≥25× (Koorevaar et al., 2025) e foi validada em espécies de aquicultura (robalo manchado, linguado oliveira, caranguejo de lama), culturas (milho, soja, arroz) e gado (gado bovino, porco, salmão).
WES + WGS de baixa passagem para CNV. A sequenciação do exoma completo (WES) captura variantes codificantes em alta profundidade, mas é cega a CNVs não codificantes. Adicionar 2–4× lpWGS a amostras de WES — a abordagem "genoma-exoma misto" — fornece deteção de CNV em todo o genoma a um custo adicional marginal (~40–80 dólares por amostra). Esta abordagem está a ser cada vez mais adotada na investigação de doenças raras, onde são necessárias tanto a análise de SNV codificantes (WES) como a análise de CNV não codificantes (lpWGS).
Implementação faseada ao longo dos ciclos orçamentais. Ano 1: 1× lpWGS na coorte completa ($30/amostra, 2.000 amostras = $60K). Analisar, publicar GWAS. Anos 2–3: 30× nas 200 melhores amostras ($300/amostra, $60K). Construir painel de referência personalizado, re-imputar os dados do Ano 1, publicar análise de variantes raras. Ano 4: re-analisar o conjunto de dados combinado com métodos melhorados. Esta abordagem em etapas alinha os gastos com os ciclos de financiamento enquanto aumenta progressivamente a resolução dos dados.
Para projetos que requerem re-sequenciamento em escala populacional e otimização de profundidade, consulte o nosso guia complementar sobre Projetos de Re-Sequenciamento WGS em Grande Escala para a cobertura da logística de amostras, genotipagem conjunta em grande escala e suites de análise genética populacional. Para o contexto mais amplo de como as decisões de profundidade se encaixam na paisagem do WGS, consulte o nosso Hub de Serviços de Sequenciamento de Genoma Completo.
Aquisição Prática — Da Decisão à Ordem de Compra
Como Falar com Fornecedores de Sequenciamento
Ao solicitar orçamentos para um projeto de WGS, especifique estes parâmetros — os fornecedores não conseguem fornecer preços precisos sem eles:
- Tamanho do genoma e cobertura esperada por amostra (não apenas "WGS" — "genoma de 3 Gb, 10× cobertura, 150 bp em pares")
- Número de amostras e se são fornecidas como DNA extraído ou tecido. (A extração de DNA acrescenta 20–50$/amostra)
- Tipo de preparação de biblioteca (PCR livre vs PCR com; PCR livre custa mais mas elimina o viés de GC)
- Preferência de multiplexação (quantas amostras por faixa/célula de fluxo; maior multiplexação reduz o custo por amostra)
- Formato de entrega de dados (FASTQ apenas vs BAM/CRAM + VCF; serviços de análise acrescentam $50–200/amostra dependendo da profundidade e complexidade)
- Tempo de resposta (padrão 8–12 semanas vs expresso 4–6 semanas; o expresso geralmente tem um suplemento de 25–50%)
Validar a Sua Escolha de Profundidade com um Piloto
Antes de comprometer a coorte completa, execute um lote piloto de 8 a 16 amostras na profundidade planeada, mais um nível superior. Se planeia 1× lpWGS, faça o piloto a 1× e 4× para as mesmas amostras. Compare: precisão da imputação (r²) a 1× vs genótipos chamados a 4×; concordância em locais de variantes conhecidas, se existirem dados de validação; e métricas de complexidade da biblioteca (taxa de duplicados, distribuição do tamanho do inserto, uniformidade da cobertura). Um piloto de $1,500 a $3,000 pode prevenir um erro de $50,000.
Modelo de Orçamento para um Projeto de Genoma de 3 Gb
| Item de Linha | 1× lpWGS (1.000 amostras) | 10× Desvio Padrão (300 amostras) | 30× Profundo (100 amostras) |
|---|---|---|---|
| Extração de ADN + QC | 20.000 $ (20 $/amostra) | 6.000 $ (20 $/amostra) | 2.000 $ (20 $/amostra) |
| Preparação da biblioteca | 50.000 dólares (50 dólares/amostra) | 21.000 $ (70 $/amostra sem PCR) | 10.000 dólares (100 dólares/amostra sem PCR) |
| Sequenciação | 30.000 $ (30 $/amostra) | 60.000 dólares (200 dólares/amostra) | 30.000 dólares (300 dólares/amostra) |
| Armazenamento de dados (5 anos) | 3.000$ | 15.000 dólares | 15.000 dólares |
| Análise bioinformática | 15.000 dólares | 15.000 dólares | 10.000 dólares |
| Imputação (se aplicável) | 5.000 dólares | — | — |
| Gestão de projetos | 5.000 dólares | 5.000 dólares | 3.000 $ |
| Total | 128.000 dólares | 122.000 dólares | 70.000 dólares |
| Custo por amostra | 128 dólares | 407 dólares | $700 |
| Poder GWAS (h²=0,3) | Mais alto (N=1.000) | Moderado (N=300) | Baixo (N=100) |
A CD Genomics fornece Estudo de Associação Genómica (GWAS) e Evolução da População serviços de análise integrados com WGS a qualquer profundidade, desde a consulta de design experimental até figuras prontas para publicação. Para projetos que requerem análise de número de cópias complementando WGS de baixa profundidade, o nosso Serviços de Sequenciação CNV fornecer chamada de CNV otimizada para profundidade tanto em cobertura baixa como alta.
Perguntas Frequentes
Qual é a diferença entre WGS de baixa passagem e arrays SNP?
Sequências de WGS de baixa cobertura sequenciam todo o genoma com uma cobertura de 0,5–4× e imputam genótipos em falta, capturando a variação em todo o genoma sem marcadores pré-selecionados. As matrizes SNP genotipam entre 500K–2M de locais pré-selecionados. O WGS de baixa cobertura evita viés de seleção (as matrizes são projetadas principalmente a partir de populações europeias), captura variantes que as matrizes perdem e gera dados que podem ser reanalisados à medida que os painéis de referência e os métodos de imputação melhoram. No entanto, as matrizes são mais simples de analisar (não requerem imputação para genótipos chamados) e continuam a ser mais baratas em tamanhos de amostra muito pequenos (<50).
A que cobertura posso chamar variantes estruturais de forma fiável?
Deleções e duplicações grandes (>1 Mb) são detectáveis a partir de 0,5–1× lpWGS utilizando ferramentas baseadas em profundidade de leitura (cn.mops, CNVkit). Para deteção abrangente de SV, incluindo inserções, inversões e eventos menores (<100 kb), é recomendada uma cobertura de ≥20× com chamadores baseados em split-read e paired-end (Manta, Delly). A chamada de SV a partir de dados de 30× alcança >95% de sensibilidade para eventos >1 kb em um genoma de 3 Gb.
Preciso de um painel de referência para a imputação de WGS de baixa passagem?
Para imputação baseada em GLIMPSE2, sim — um painel de referência em fase de ≥500 haplótipos é o mínimo, sendo preferível ter >1.000. Se não existir um painel de referência para a sua espécie, há duas alternativas: (1) construir um painel personalizado sequenciando 50–100 indivíduos geneticamente diversos a ≥25×, e depois imputar o restante a 1–4×; ou (2) usar o STITCH para imputação sem referência, que requer ≥100 amostras com cobertura de ≥2×.
Como é que a profundidade de sequenciamento afeta o poder estatístico de GWAS?
Para GWAS de variantes comuns (MAF >5%), o poder estatístico é impulsionado principalmente pelo tamanho da amostra, não pela cobertura, uma vez que a cobertura excede ~0,5× com imputação. Sequenciar 1.000 indivíduos a 1× detectará mais associações verdadeiras de GWAS do que 100 indivíduos a 30×. Para GWAS de variantes raras (MAF <1%), a relação inverte-se: a sensibilidade de deteção de variantes requer uma cobertura de ≥15×, e a imputação não consegue recuperar variantes ausentes do painel de referência.
Qual é a forma mais barata de sequenciar 500 genomas?
A preços atuais (2025) para um genoma de 1 Gb: 1× lpWGS a cerca de $30/amostra = $15,000 no total. Adicione $5,000 para imputação contra um painel de referência público = $20,000. Isso fornece genótipos de variantes comuns adequados para GWAS, estrutura populacional e previsão genómica. Se variantes raras ou SVs forem necessárias, orce para 10× a cerca de $200/amostra = $100,000 para 500 amostras.
Posso combinar amostras sequenciadas a diferentes profundidades numa única análise?
Sim. A genotipagem conjunta com GATK lida com a cobertura heterogénea entre amostras, e a imputação GLIMPSE2 pode harmonizar um design de cobertura mista onde 10–20% das amostras têm uma cobertura elevada (≥25×) e o restante tem uma cobertura baixa (1–4×). Este design híbrido é a estratégia mais rentável para projetos em escala populacional em organismos não-modelo.
Quanto espaço de armazenamento precisa um projeto WGS?
Um projeto de 1.000 amostras a 10× para um genoma de 3 Gb gera aproximadamente 60 TB de dados em arquivos FASTQ, BAM e VCF. Usar CRAM em vez de BAM reduz isso em 40–50% (~36 TB). Adicionar PGEN para dados de genótipo economiza mais 1–2 TB. Os custos de armazenamento em nuvem para arquivamento custam aproximadamente $25–50 por TB por mês para armazenamento ativo e $1–4 por TB por mês para armazenamento arquivado (glacier).
Qual é o tempo de resposta para WGS a diferentes profundidades?
O tempo de sequenciação escala linearmente com a cobertura. Uma célula de fluxo NovaSeq S4 produz ~3 Tb de dados por corrida de 44 horas. A 1× (3 Gb/amostra), aproximadamente 1.000 amostras podem ser sequenciadas por corrida. A 30×, aproximadamente 33 amostras por corrida. Os prazos típicos de projetos, incluindo preparação de bibliotecas, sequenciação e bioinformática: 1× lpWGS = 4–6 semanas para 1.000 amostras; 30× WGS = 8–12 semanas para 100 amostras.
Referências:
- Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputação de dados de sequenciação de baixa cobertura a partir de 150,119 genomas do UK Biobank. Genética da Natureza. 2023;55(7):1088-1090. doi:10.1038/s41588-023-01438-3
- Wasik K, Berisa T, Pickrell JK, et al. Comparação entre sequenciação de baixo custo e genotipagem para mapeamento de traços em farmacogenética. BMC Genómica. 2021;22:197. doi:10.1186/s12864-021-07508-2
- Hofmeister RJ, Ribeiro DM, Rubinacci S, Delaneau O. Faseamento preciso de variantes raras em dados de sequenciação de genoma completo e exoma completo no UK Biobank. Genética da Natureza. 2023;55(7):1243-1249. doi:10.1038/s41588-023-01415-w
- Koorevaar T, van de Weg E, Visser RGF, et al. Imputação de genótipos a partir de WGS de baixa cobertura utilizando painéis de referência de haplótipos em morango cultivado. BMC Genómica2025;26(1):968. doi:10.1186/s12864-025-12270-w
- DePristo MA, Banks E, Poplin R, et al. Um quadro para a descoberta de variações e genotipagem usando dados de sequenciação de DNA de nova geração. Genética da Natureza. 2011;43(5):491-498. doi:10.1038/ng.806
- Danecek P, Bonfield JK, Liddle J, et al. Doze anos de SAMtools e BCFtools. GigaScience2021;10(2):giab008. doi:10.1093/gigascience/giab008
- Atsawawaranunt K, Whibley A, Santure AW, et al. A história está ausente ou mal contada? Compromissos entre o sequenciamento associado a locais de restrição e o sequenciamento do genoma completo. Ecologia Molecular2026;35(5):e17707. doi:10.1111/mec.17707
- Zhao S, Agafonov O, Azab A, Stokowy T, Hovig E. Precisão e eficiência de pipelines de chamada de variantes germinativas para dados do genoma humano. Relatórios Científicos. 2020;10:20222. doi:10.1038/s41598-020-77218-4
- Davies RW, Flint J, Myers S, Mott R. Imputação rápida de genótipos a partir de sequências sem painéis de referência. Genética da Natureza. 2016;48(8):965-969. doi:10.1038/ng.3594
- Davies RW, Kucka M, Su D, et al. Imputação rápida de genótipos a partir de sequências com painéis de referência. Genética da Natureza2021;53(7):1104-1111. doi:10.1038/s41588-021-00877-0
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.