What is large-scale whole genome re-sequencing and how is it different from de novo assembly?

Large-scale re-sequencing maps reads from hundreds to thousands of individuals against an existing reference genome to identify genetic variants (SNPs, indels, structural variants) across a population. It is fundamentally different from de novo assembly, which constructs a genome from scratch without a reference. Re-sequencing is faster and cheaper per sample but requires a high-quality reference genome.

How many samples do I need for a population genomics or GWAS study?

For population structure and demographic history, 10-30 individuals per population at ≥10× coverage is often sufficient. For GWAS, sample sizes of hundreds to thousands are required to detect loci explaining 0.1-1% of phenotypic variance. For genomic selection, 500-2,000 individuals is standard for training population construction in plant and animal breeding.

What sequencing depth should I choose for a large-scale re-sequencing project?

Low-coverage WGS (1-4×) with imputation is the default for cohorts exceeding 300 samples, capturing common variants at a fraction of deep WGS cost. Standard coverage (10-15×) provides reliable rare variant calls for demographic inference and selection scans. Deep coverage (30×) is recommended for reference panel construction and high-confidence variant detection.

How do I control costs for a project with hundreds to thousands of samples?

Three highest-impact strategies: (1) use low-coverage WGS + imputation for the full cohort with a custom reference panel from 10-20% of samples at 30×, (2) negotiate volume pricing and perform pre-pool QC runs to avoid costly requeueing, and (3) adopt compressed formats (CRAM, PGEN) to cut storage costs by 30-98%.

What bioinformatic infrastructure do I need for joint analysis of 1,000 genomes?

For alignment and per-sample variant calling, a 500-core HPC cluster or equivalent cloud compute can process 1,000 30× genomes in under a week. For joint genotyping, at least 1 TB of RAM and 50 TB of fast storage are recommended for cohorts exceeding 2,000 samples. Workflow managers (Nextflow, Snakemake) and containerized tools (Docker, Singularity) are strongly recommended for reproducibility.

Can I combine samples sequenced at different depths in the same analysis?

Yes, joint genotyping with GATK handles heterogeneous coverage. This is routine in projects combining a deeply sequenced reference panel with a low-coverage discovery cohort. Variant calling sensitivity differs by depth, so batch effects should be explicitly modeled. Imputation with GLIMPSE2 can harmonize coverage differences by imputing low-coverage samples to reference panel resolution.

What are the data storage requirements for a large re-sequencing project?

A single 30× genome generates 200-300 GB of total data; a 1,000-sample project at 10× requires 100-150 TB of active storage and 50-80 TB for long-term archival. Cloud archival storage costs roughly $100-400 per month for a 100 TB archive. Using CRAM instead of BAM cuts alignment storage by 30-50%; PGEN format cuts genotype storage by 98%.

How does CD Genomics handle the logistics of large-scale re-sequencing projects?

CD Genomics provides a dedicated project manager, LIMS-tracked sample handling in 96-well format, automated liquid handling for library preparation, pre-pool QC runs on every batch, joint variant calling with GATK, and comprehensive population genetics analysis. Raw data (FASTQ), aligned data (BAM/CRAM), variant calls (VCF), and publication-ready analysis outputs are delivered with a detailed methods document.

Projetos de Re-sequenciamento de Genoma em Grande Escala: Genómica Populacional, GWAS e Otimização de Custos para Amostras de Alto Volume

A Superar Genomas Únicos — Quando o WGS Escala para Populações

Um melhorador de plantas precisa de genotipar 2.000 linhas de milho haploide duplicado para treinar um modelo de seleção genómica que prevê o desempenho de híbridos antes dos testes de campo. Um geneticista de conservação quer analisar 500 genomas de salmão atlântico em busca de assinaturas de adaptação local a rios em aquecimento. Um biólogo evolutivo planeia re-sequenciar 300 indivíduos de 12 populações de um peixe não modelo para reconstruir a sua história demográfica desde o último máximo glacial. Estes projetos partilham um ADN comum: todos requerem re-sequenciamento de genoma completo (WGS) em escala populacional — e a logística, custo e desafios bioinformáticos de 500 genomas são categoricamente diferentes dos de 5.

O re-sequenciamento de WGS em grande escala — definido aqui como projetos envolvendo centenas a milhares de indivíduos sequenciados com coberturas de 1× a 30× — tornou-se a abordagem padrão para a genómica populacional, estudos de associação genoma amplo (GWAS), seleção genómica na agricultura e biologia evolutiva desde aproximadamente 2022. A convergência da queda acentuada nos custos de sequenciamento (um genoma humano a 30× agora custa menos de 300 dólares apenas em consumíveis de sequenciamento), pipelines bioinformáticos maduros capazes de realizar chamadas conjuntas de milhares de amostras e métodos de imputação de baixa cobertura validados tornaram o WGS em escala populacional viável para grupos de pesquisa individuais — não apenas para consórcios com orçamentos de oito dígitos.

A CD Genomics fornece Sequenciação do Genoma Completo serviços escalonados para projetos a nível populacional, desde a extração de ADN em formato de 96 poços até à chamada conjunta de variantes e análise genética populacional. Este artigo cobre o fluxo de trabalho completo para re-sequenciamento em grande escala: design do projeto, logística de amostras, otimização de custos, estratégias bioinformáticas para análise conjunta de centenas a milhares de genomas, e gestão de dados para entregáveis prontos para publicação.

O que as Re-Sequências em Escala Populacional Respondem

Um único genoma de referência diz-lhe o que um indivíduo possui. Uma população de genomas re-sequenciados diz-lhe o que a espécie possui — e, mais importante, como essa variação está distribuída através da geografia, ecologia e tempo. As questões centrais que o WGS em escala populacional responde dividem-se em quatro categorias:

Estrutura populacional e história demográfica. A análise de componentes principais (PCA), a estimativa de ancestralidade baseada em ADMIXTURE e a inferência de identidade por descendência (IBD) a partir de dados de WGS resolvem subdivisões populacionais, fluxo gênico e gargalos históricos a resoluções inatingíveis por métodos de representação reduzida. O coalescente Markoviano sequencial par a par (PSMC) e suas extensões de múltiplas amostras (MSMC, SMC++) reconstituem trajetórias do tamanho efetivo da população ao longo de centenas de milhares de gerações a partir de um único genoma diploide ou de um punhado de genomas, proporcionando uma visão da história demográfica de espécies pouco estudadas.

Seleções seletivas e adaptação local. Comparar espectros de frequência alélica e diferenciação populacional (Fst) em todo o genoma identifica regiões onde a seleção levou os alelos à fixação ou quase fixação. Métodos como XP-CLR (razão de verossimilhança composta entre populações), iHS (pontuação de haplótipos integrada) e variação nucleotídica (π) varrem a razão para identificar os intervalos genómicos específicos sob seleção — desde a varredura de persistência da lactase em populações humanas até QTLs de tolerância à salinidade em variedades tradicionais de arroz. A resolução do WGS é importante aqui: as matrizes de genotipagem capturam apenas variantes comuns presentes no painel de design, enquanto o WGS captura todo o espectro de frequência alélica, incluindo variantes de baixa frequência e variantes privadas da população que são frequentemente as mais informativas para detectar seleção recente.

Estudos de associação genómica em larga escala (GWAS). Para características com arquiteturas genéticas complexas — rendimento em culturas, resistência a doenças em gado, tamanho corporal em peixes — os GWAS testam milhões de SNPs para associação estatística com o fenótipo. Abordagens modernas de modelos mistos (GEMMA, GCTA, BOLT-LMM) consideram a estrutura populacional e a parentesco críptico, reduzindo os falsos positivos que afetaram os primeiros estudos de genes candidatos. O poder estatístico dos GWAS escala principalmente com o tamanho da amostra, não com a densidade de marcadores além de um certo ponto — mas o WGS oferece duas vantagens sobre os arrays de genotipagem: captura variantes causais raras que os arrays perdem e permite o mapeamento fino direto dos picos de GWAS para variantes causais candidatas sem sequenciamento direcionado subsequente.

Um exemplo concreto de 2025 ilustra o que o re-sequenciamento em escala populacional oferece para GWAS de culturas. Zhang et al. (Frontiers in Plant Science) re-sequenciaram 348 acessões de soja diversas com uma cobertura de 10×, detectando 1.882.531 SNPs para um GWAS de peso de cem sementes. Um pico significativo no cromossoma 19 co-localizou com um QTL biparental (qHSW-19-4) mapeado numa população RIL independente, reduzindo o intervalo candidato para 580 kb. Quatro genes de alta prioridade dentro deste intervalo foram validados por qRT-PCR — um fluxo de trabalho desde WGS populacional até candidatos funcionais que exemplifica como o re-sequenciamento de cobertura moderada de algumas centenas de indivíduos fornece resolução suficiente para a descoberta de picos em GWAS, após o que o mapeamento fino e a validação funcional assumem.

Seleção e previsão genómica. Na reprodução de plantas e animais, a seleção genómica utiliza marcadores genómicos em todo o genoma para prever os valores de reprodução (GEBVs) para os candidatos à seleção. O experimento Big BIT de milho de 2025 — um estudo de validação multi-local e multi-anual em milhares de híbridos — confirmou que a seleção genómica habilitada por previsão de genoma completo, ancorada em dados de treino de amplo ambiente, é a estratégia de avaliação genética mais eficaz na fase inicial. O WGS, ou WGS de baixa cobertura com imputação para nível de sequência, fornece os dados densos de marcadores que os modelos de seleção genómica requerem, sem o viés de seleção dos arrays de SNP.

Quantas Amostras Você Realmente Precisa?

Os requisitos de tamanho da amostra dependem da questão. Para a estrutura populacional e inferência demográfica, 10-30 indivíduos por população com WGS a ≥10× de cobertura é tipicamente suficiente. Para GWAS com tamanhos de efeito realistas (explicando 0,1-1% da variância fenotípica), são necessários centenas a milhares de indivíduos — cálculos de poder devem ser realizados antes de se comprometer com o sequenciamento. Para seleção genómica, tamanhos de população de treino de 500-2.000 indivíduos são comuns em programas de melhoramento de plantas, com a precisão da previsão a estabilizar à medida que os conjuntos de treino excedem vários milhares.

Uma regra prática: se conseguir responder à sua pergunta com menos de 100 indivíduos, o sequenciamento genómico completo (WGS) a 10-30× é simples e rentável. Se precisar de 500-5.000 indivíduos, o WGS de baixa cobertura (1-4×) com imputação para um painel de referência torna-se a estratégia dominante de otimização de custos. Acima de 10.000 indivíduos, considere um design em etapas — WGS de baixa cobertura para toda a coorte, com um subconjunto de 10-20% sequenciado a 30× para servir como painel de referência para imputação.

Design de Projetos para Escala — A Logística, Não a Biologia, É o Gargalo

Um projeto de WGS com 500 amostras é mais um problema logístico do que um problema biológico. O fluxo de trabalho em laboratório — extração de DNA, preparação de bibliotecas até sequenciação — deve ser projetado para um rendimento paralelo, integridade no rastreamento de amostras e minimização de efeitos de lote desde o início. Correções retrospectivas para trocas de amostras, cobertura desigual ou chamadas de variantes confundidas por lote são caras ou impossíveis.

Extração de DNA e Controlo de Qualidade em Grande Escala

Para projetos em escala populacional, a extração de DNA passa de colunas de centrifugação individuais para formatos de placas de 96 poços. Requisitos principais:

Quantidade de entradaRecomenda-se ≥500 ng de ADN genómico de alta qualidade por amostra para a preparação de bibliotecas sem PCR, o que elimina o viés de GC e os artefatos de duplicação de PCR que afetam desproporcionalmente a chamada de variantes em coortes populacionais. Para amostras de baixo input (especimens degradados de museus, pequenos invertebrados individuais), são aceites fluxos de trabalho com PCR, mas devem ser aplicados uniformemente dentro de um projeto — misturar bibliotecas sem PCR e com PCR confunde o lote com a biologia.

Métricas de qualidadeCada amostra deve ser quantificada por um ensaio de dsDNA baseado em fluorescência (Qubit ou PicoGreen) e dimensionada por eletroforese capilar (TapeStation ou Fragment Analyzer). Pontuações de DIN (Número de Integridade do DNA) abaixo de 6 indicam degradação que pode exigir ajustes no protocolo. Em grandes coortes analisadas pelo projeto Tohoku Medical Megabank, as pontuações de DIN variaram de 1,6 a 9,2 em 100.000 amostras — o importante é documentar, não eliminar, essa variação para que possa ser modelada como uma covariável técnica.

Normalização e colocaçãoO DNA deve ser normalizado para uma concentração uniforme (tipicamente 10-50 ng/µL) em todas as amostras e alocado em placas de 96 poços. Manipuladores de líquidos automatizados (Agilent Bravo, Biomek NXp) são fortemente recomendados para mais de ~100 amostras para eliminar erros de pipetagem manual que causam trocas de amostras. Todas as placas devem ser codificadas por barras e rastreadas através de um sistema de gestão de informação de laboratório (LIMS).

Preparação de Bibliotecas e Multiplexação

Para o re-sequenciamento populacional, a estratégia de preparação da biblioteca determina tanto o custo por amostra como a qualidade dos dados:

Preparação de biblioteca sem PCR é preferido sempre que a entrada de DNA exceda 500 ng. Bibliotecas sem PCR eliminam o viés de GC induzido pela amplificação, reduzem as taxas de duplicados e produzem uma cobertura mais uniforme — tudo isto melhora a sensibilidade na chamada de variantes, particularmente em regiões ricas e pobres em GC. O compromisso é a maior necessidade de entrada de DNA e limiares de qualidade mais rigorosos.

Índices duais únicos (IDUs) são obrigatórios para projetos em escala populacional. A troca de índices — onde leituras de uma amostra são erroneamente atribuídas a outra durante a desmultiplexação em células de fluxo padronizadas — pode produzir chamadas heterozigóticas espúrias quando uma leitura contaminante carrega um alelo diferente do verdadeiro da amostra. Os UDIs, onde tanto os índices i7 quanto i5 são únicos para cada amostra e a combinação é validada, eliminam este risco. Estratégias de índice único não devem ser usadas para projetos que excedam 96 amostras.

Densidade de multiplexação depende da plataforma de sequenciação: uma célula de fluxo NovaSeq S4 acomoda 48-96 amostras com uma cobertura humana de 30×; um DNBSEQ-T7 pode processar mais de 150 amostras através das suas quatro células de fluxo. Para designs de baixa cobertura (1-4×), 384-768 amostras podem ser multiplexadas numa única célula de fluxo S4.

Execuções de controlo de qualidade pré-pool — sequenciar um alíquota agrupada de 48-96 amostras com uma cobertura de 1-2× antes de se comprometer com sequenciamento a plena profundidade — custa aproximadamente 500-1.000 dólares e permite identificar problemas de equilíbrio da biblioteca, contaminação e troca de amostras antes que se propaguem para o conjunto de dados completo. O Tohoku Medical Megabank e o UK Biobank utilizam ambos esta estratégia; o investimento compensa ao prevenir uma única corrida de sequenciamento reprogramada.

Profundidade de Sequenciamento — Um Espectro de Estratégias

Estratégia	Cobertura	Variantes Detetadas	Custo/Exemplar (aprox.)	Melhor Para
Ultra-baixa passagem	0,5-1×	~1-5M SNPs (com imputação)	20-40€	Cohortes muito grandes (N>5.000); ancestralidade, escores poligénicos
Baixa cobertura + imputação	2-4×	~10-20M SNPs (com imputação)	50-100€	GWAS em grandes coortes; seleção genómica na reprodução
WGS Padrão	10-15×	~30-40M SNPs, chamadas de variantes raras fiáveis	150-250€	Estrutura populacional, varreduras de seleção, inferência demográfica
WGS profundo	30×	~40-50M SNPs, chamadas de variantes raras de alta confiança	250-400€	Painéis de referência para imputação; deteção de variantes de alta confiança
Ultra-profundo	60×+	Sensibilidade máxima para somático/célula única	500-800€+	Aplicações especializadas (WGS de célula única, mosaicismo somático)

A perceção crítica da literatura de 2023-2025 é que o WGS de baixa cobertura com imputação (usando GLIMPSE2 ou QUILT) agora alcança uma precisão de genotipagem de variantes comuns comparável ao WGS profundo ou a arrays de SNP de alta densidade a uma fração do custo. Para questões de genómica populacional onde variantes comuns (MAF > 1%) impulsionam o sinal — estrutura populacional, inferência demográfica, a maioria dos GWAS — o custo por poder estatístico favorece tamanhos de amostra maiores com menor cobertura em detrimento de tamanhos de amostra menores com maior cobertura.

Sequencing Depth vs. Sample Size Decision Matrix: 2D decision chart with four colored application zones and cost contours. Figura 1: Matriz de Decisão de Profundidade de Sequenciamento vs. Tamanho da Amostra — Um gráfico 2D com o número de amostras no eixo X (escala logarítmica, de 10 a 10.000) e a profundidade de cobertura no eixo Y (0,5× a 60×). Quatro zonas de aplicação codificadas por cores: Azul (Ultra-baixa cobertura 0,5-1×) — ancestralidade/PGS; Verde (Baixa cobertura + imputação 2-4×) — GWAS/seleção genómica; Laranja (WGS padrão 10-15×) — varreduras de seleção/demografia; Vermelho (WGS profundo 30×+) — construção de painel de referência. Contornos de custo diagonais a $5K, $25K, $100K, $500K de custo total do projeto. Principais insights: para um orçamento fixo, mais amostras a uma cobertura mais baixa proporcionam maior poder de GWAS para variantes comuns do que menos amostras a uma cobertura mais alta.

Componentes de Custo e Otimização

Para onde Vai o Dinheiro

Um projeto de WGS em escala populacional tem cinco componentes de custo, e as suas contribuições relativas mudam com a escala:

Extração de ADN e QC (~5-10% do total): Dominado por consumíveis e mão-de-obra. Em grande escala, a compra de reagentes a granel e o manuseio automatizado de líquidos reduzem os custos por amostra em 40-60% em comparação com o processamento manual.
Preparação da biblioteca (~15-25% do total): O maior custo variável. Os kits de preparação de bibliotecas comerciais custam entre 50-150 dólares por amostra ao preço de tabela; descontos por volume negociados e a produção interna de transposase Tn5 podem reduzir isso para 10-30 dólares por amostra. Para projetos que excedem 500 amostras, o investimento em infraestrutura de preparação de bibliotecas interna normalmente recupera seu custo dentro do primeiro lote.
Sequenciação (~40-60% do total): O custo dominante, impulsionado pela cobertura × número de amostras × tamanho do genoma. Os custos de sequenciação diminuíram cerca de 2-3× por ano desde 2021, e esta tendência é esperada para continuar. Os preços das instalações centrais variam amplamente; a negociação direta com os prestadores de serviços e o agendamento flexível (preenchendo células de fluxo parcialmente carregadas) podem reduzir os custos em 20-30%.
Armazenamento e transferência de dados (~5-15% do total): Um genoma humano de 30× gera aproximadamente 90 GB de FASTQ, 60 GB de BAM e 1 GB de VCF — além de índices de alinhadores, ficheiros temporários e backups, totalizando cerca de 200-300 GB por amostra. Para 1.000 amostras, isso representa 200-300 TB. Os custos de armazenamento em nuvem (0,02-0,05 dólares por GB por mês) tornam-se significativos a esta escala e devem ser orçados para a duração do projeto (normalmente 3-5 anos). O formato comprimido PGEN (PLINK 2.0) alcança 98% de compressão dos dados de genótipo, reduzindo um conjunto de dados de 2 TB para 39 GB — uma necessidade prática para projetos em grande escala.
Análise bioinformática (~10-20% do total): Os custos de computação escalam com o tamanho da amostra, mas podem ser otimizados através da paralelização do fluxo de trabalho. A análise baseada na nuvem na AWS ou Google Cloud custa aproximadamente $5-15 por genoma 30× para alinhamento e chamada de variantes; a computação de alto desempenho (HPC) local amortiza para um custo por amostra mais baixo, mas requer um investimento inicial em infraestrutura.

Population WGS Project Cost Breakdown: Side-by-side stacked bar comparison of two strategies. Figura 2: Análise de Custos do Projeto de WGS Populacional — Comparação lado a lado de dois designs representativos. Parte superior: 500 Amostras × 10× (Genoma de 1 Gb, total de ~$150K). Parte inferior: 2,000 Amostras × 2× (1 Gb, lcWGS + Imputação, total de ~$230K). Cada barra mostra a distribuição proporcional: Extração de DNA & QC (7%), Preparação de Biblioteca (20%/25%), Sequenciação (50%/30%), Armazenamento de Dados (10%/15%), Bioinformática (13%/23%). Abaixo dos gráficos, chamadas em forma de pílula para quatro alavancas de otimização de custos: lcWGS + imputação (economias de 10-30×), preparação de biblioteca Tn5 interna ($5 vs $50-100/amostra), QC de pré-pool em massa (previne 10-20% de excesso), formatos comprimidos (CRAM 30-50%, PGEN 98% de redução de armazenamento).

Estratégias de Otimização de Custos que Funcionam

Para além da estratégia óbvia de sequenciar menos amostras com menor cobertura, várias otimizações específicas foram validadas em projetos de grande escala:

WGS de baixa cobertura + imputação para um painel de referência. Esta é a estratégia de otimização de custos mais impactante disponível em 2025-2026. Sequenciar 1.000 indivíduos a 2× de cobertura custa aproximadamente o mesmo que 70 indivíduos a 30× de cobertura — e para o poder de GWAS, os 1.000 genomas de baixa cobertura quase sempre vencem. O painel de referência de imputação deve ser compatível com a ancestralidade ou com a população do grupo-alvo; para organismos não-modelo sem painéis de referência existentes, sequenciar 10-20% do grupo a 30× para construir um painel de referência personalizado é economicamente viável em tamanhos de grupo acima de ~500.

Sequenciação agrupada para questões específicas. Quando os genótipos a nível individual não são necessários — para estimativas de frequência alélica, varreduras de seleção ou experiências de evolução e re-sequenciação — agrupar ADN antes da preparação da biblioteca pode reduzir custos em 5-20×. O Pool-seq sacrifica a informação do genótipo individual, mas preserva as estimativas de frequência alélica com precisão quantificável que depende do tamanho do grupo e da profundidade de sequenciação.

Produção de transposase Tn5 interna. Kits de preparação de bibliotecas baseados em transposase comercial (Nextera, TrueTag) custam entre 50 a 100 dólares por reação. Um estudo de 2026 em Aquacultura demonstrou que a purificação e otimização interna da transposase Tn5 reduz os custos de preparação de bibliotecas para menos de 5 dólares por amostra, mantendo a complexidade da biblioteca equivalente aos kits comerciais. Para projetos que excedem 200 amostras, o investimento de 3 a 4 dias na produção de proteínas é altamente compensador.

Execuções de QC em massa e reequilíbrio. Sequenciar um alíquota agrupada a baixa cobertura antes de se comprometer com sequenciação a profundidade total custa cerca de 1-3% do orçamento total do projeto e pode prevenir um excesso de custo de 10-20% devido a execuções reprogramadas.

Otimizações computacionais. O uso de formatos de ficheiro comprimidos (PGEN para genótipos, CRAM para alinhamentos em vez de BAM), representações esparsas para GWAS e instâncias de nuvem para análises não críticas em termos de tempo pode reduzir os custos de computação em 40-60%.

A CD Genomics oferece profundidade de sequenciamento flexível e configurações de multiplexação em toda a sua Sequenciação do Genoma Completo plataforma, permitindo que os projetos equilibrem cobertura, contagem de amostras e orçamento. Para projetos que combinam re-sequenciamento em escala populacional com um número menor de genomas de referência sequenciados em profundidade, a CD Genomics' Sequenciamento de Genoma Completo de Novo de Plantas e Animais o serviço fornece as montagens de referência de alta qualidade contra as quais as leituras de re-sequenciamento são alinhadas.

Large-Scale WGS Re-Sequencing Pipeline: 5-stage horizontal workflow from sample intake to population analysis. Figura 3: Pipeline de Re-Sequenciamento WGS em Grande Escala — Um fluxo de trabalho horizontal de 5 etapas, desde a receção da amostra até à análise populacional. Etapas: (1) Receção da Amostra & QC — placas de 96 poços, quantificação de DNA baseada em fluorescência, verificação de integridade TapeStation (Mês 1) → (2) Preparação da Biblioteca & Multiplexação — sem PCR com códigos de barras UDI, manuseio automático de líquidos, QC pré-pool a 1-2× (Mês 2) → (3) Sequenciamento — NovaSeq S4 ou DNBSEQ-T7 a 0.5×–30× (Meses 2-4) → (4) Genotipagem Conjunta — GVCF por amostra, compressão ReblockGVCF, GenomicsDBImport, GenotypeGVCFs, filtragem VQSR (Meses 5-6) → (5) Análise Populacional — PCA/ADMIXTURE, GWAS (GEMMA/PLINK), varreduras de seleção (XP-CLR/iHS), inferência demográfica (PSMC/MSMC2) (Meses 6-8).

Bioinformática em Grande Escala — Do FASTQ à Genética Populacional

O pipeline bioinformático para um projeto de WGS com 1.000 amostras não é simplesmente o pipeline de amostra única executado 1.000 vezes. A análise conjunta — onde a informação é partilhada entre amostras — melhora a precisão da chamada de variantes, permite a deteção de variantes raras que são invisíveis em amostras individuais e é necessária para análises genéticas populacionais. A arquitetura computacional deve ser projetada para paralelização desde o início.

Alinhamento de Leitura e Pré-Processamento

O alinhamento de leituras curtas a um genoma de referência é uma operação paralela por amostra — cada amostra pode ser processada de forma independente. O pipeline padrão: controlo de qualidade com FastQC e MultiQC → remoção de adaptadores e filtragem de qualidade com fastp → alinhamento com BWA-MEM2 → marcação de duplicados com Picard ou Sambamba → recalibração de pontuações de qualidade de base (BQSR) com GATK (DePristo et al., 2011).

Para projetos que excedem 100 amostras, gestores de fluxo de trabalho (Nextflow, Snakemake ou Cromwell/WDL) são essenciais — eles gerem a submissão de trabalhos em paralelo, a alocação de recursos e a re-submissão automática de trabalhos falhados. Um pipeline Nextflow bem configurado em um cluster HPC de 500 núcleos pode processar 1.000 genomas humanos 30× de FASTQ a BAMs prontos para análise em 3-5 dias.

A re-sequenciação de leituras longas — utilizando PacBio HiFi ou Oxford Nanopore para a descoberta de variantes estruturais ou faseamento — está a ser cada vez mais incorporada em estudos populacionais. Os Serviços de Sequenciação de Leituras Longas da CD Genomics oferecem plataformas complementares para re-sequenciação ciente de variantes estruturais num subconjunto da coorte, com leituras alinhadas por minimap2 e variantes estruturais chamadas por Sniffles2 ou SVIM. Para uma visão abrangente das plataformas de leituras longas em todas as aplicações — incluindo descoberta de variantes estruturais, deteção de metilação e sequenciação de isoformas completas em escala populacional — consulte o nosso Serviços de Sequenciação de Longa Leitura para Cada Aplicação.

Chamada de Variantes em Grande Escala — Genotipagem Conjunta

A chamada de variantes por amostra com o GATK HaplotypeCaller em modo GVCF, seguida de genotipagem conjunta em todas as amostras, é a abordagem padrão de ouro para WGS em escala populacional. As "Melhores Práticas" do GATK, introduzidas para coortes superiores a 2.000 amostras e validadas no gnomAD (150.000 exomas), UK Biobank e All of Us, introduzem otimizações chave:

ReblockGVCF comprime blocos de referência adjacentes em GVCFs por amostra e remove alelos alternativos de baixa qualidade (GQ < 20), reduzindo o tamanho dos ficheiros em 70-90% e os tempos de fusão subsequentes proporcionalmente. GnarlyGenotipador aproxima os escores QUAL a partir das anotações do campo INFO sem iterar sobre cada genótipo, eliminando o gargalo computacional que tornava a chamada conjunta de coortes muito grandes impraticável. Modo de dispersão VQSR paraleliza a recalibração da pontuação de qualidade das variantes através de intervalos genómicos, permitindo a filtragem de dezenas de milhões de variantes em milhares de amostras.

Para organismos não modelo sem conjuntos de verdade estabelecidos, o VQSR requer um mínimo de 50 amostras para um treinamento eficaz do modelo de mistura gaussiana; para coortes menores, a filtragem rigorosa com base nos limiares recomendados pelo GATK (QD < 2.0, FS > 60.0, MQ < 40.0, etc.) é uma alternativa prática.

Para projetos que analisam variantes estruturais em escala populacional, a CD Genomics' Chamada de Variantes o serviço inclui abordagens de consenso de múltiplos chamadores (Manta + Delly + Lumpy) validadas para sensibilidade e precisão em uma variedade de tamanhos de genoma e conteúdos de repetição.

Imputação — Preparar Dados com Baixa Cobertura para Análise

GLIMPSE2 (Rubinacci et al., 2023) é o estado da arte atual para imputação de dados de WGS de baixa cobertura até a resolução de sequência. Alcança uma escalabilidade sublinear tanto em contagem de amostras quanto em contagem de marcadores, processando um genoma 1× contra um painel de referência de 150.000 haplótipos em aproximadamente 11 horas, com um custo computacional inferior a $0,10 por genoma. O método utiliza uma representação esparsa do painel de referência, uma transformação de Burrows-Wheeler posicional para correspondência rápida de haplótipos e cálculos HMM otimizados para hardware — permitindo a imputação em escala populacional que era computacionalmente proibitiva com métodos anteriores.

Para organismos não modelo, onde não existem grandes painéis de referência, recomenda-se um design em duas etapas: sequenciar 50-100 indivíduos a ≥25× para construir um painel de referência personalizado, e depois sequenciar a coorte restante a 1-4× e imputar em relação ao painel personalizado. Um estudo de 2025 em morango cultivado demonstrou que ~70 indivíduos geneticamente representativos a ≥25× eram suficientes para construir um painel de referência de imputação que alcançava 94-98% de concordância em um genoma alo-octoploide — uma forte evidência de que esta estratégia se generaliza entre organismos.

Análise Genética Populacional

Com um VCF filtrado e chamado em conjunto, as análises genéticas populacionais que transformam chamadas de variantes em insights biológicos incluem:

Estrutura populacionalPCA (PLINK), ADMIXTURE e reconstrução filogenética (IQ-TREE, RAxML-ng). A estimativa de parentesco com KING ou PLINK identifica relações crípticas que devem ser consideradas nas análises subsequentes.

Diversidade genéticaDiversidade de nucleotídeos (π), heterozigose observada e esperada, e D de Tajima calculados em janelas deslizantes com VCFtools ou pixy.

Diferenciação populacionalFst de Weir e Cockerham, Fst de Hudson e o D-estatístico de Patterson (ABBA-BABA) para detectar fluxo gênico e introgressão — implementados no Dsuite e no ADMIXTOOLS 2.

Deteção de varredura seletivaXP-CLR, iHS/nSL e abordagens de razão de verossimilhança composta implementadas no selscan, RAiSD e SweeD.

História demográficaPSMC para genomas diploides únicos, MSMC2 para múltiplos genomas e Stairway Plot 2 para inferência baseada no espectro de frequência de sítios.

GWASGEMMA para associação de modelos mistos, PLINK 2.0 para regressão linear/logística em larga escala, e BOLT-LMM para conjuntos de dados em biobancos onde matrizes de parentesco para 500.000 indivíduos são computacionalmente intratáveis.

CD Genomics' Evolução Populacional o serviço de análise fornece a gama completa de análises genéticas populacionais como parte de projetos de re-sequenciamento em grande escala, entregando figuras, tabelas e seções de métodos prontas para publicação para cada módulo de análise.

Gestão e Partilha de Dados

Um projeto de WGS de 1.000 amostras gera aproximadamente 100 TB de dados brutos, arquivos intermédios e resultados de análise. A gestão de dados não é uma reflexão tardia — é uma consideração de design de projeto de primeira ordem que afeta o orçamento, o cronograma e a conformidade com os mandatos de partilha de dados de revistas e financiadores.

Arquitetura de Armazenamento

Os dados de análise ativa (FASTQ, BAM, VCF) devem residir em armazenamento paralelo de alto desempenho (Lustre, GPFS ou BeeGFS) durante a fase de análise. Após a conclusão do projeto, os dados transitam para armazenamento de arquivo de menor custo: formato CRAM para alinhamentos (30-50% menor que BAM), formato PGEN para dados de genótipo (98% menor que VCF em texto plano) e arquivos comprimidos para FASTQ bruto. O armazenamento de objetos na nuvem (AWS S3 Glacier, Google Cloud Archive) custa entre $0,001 e $0,004 por GB por mês — aproximadamente $100-400 por mês para um arquivo de 100 TB — mas os custos de recuperação e latência devem ser considerados nas decisões de arquivamento.

Submissão de Base de Dados Pública

A maioria das revistas e financiadores exige a deposição de dados de sequenciação em repositórios públicos. Os alvos padrão de submissão são:

Arquivo de Leituras de Sequência do NCBI (SRA)Aceita leituras de sequenciamento brutas (FASTQ) e leituras alinhadas (BAM). A submissão requer um número de acesso ao BioProject (metadados a nível de projeto) e números de acesso ao BioSample (metadados a nível de amostra) para cada indivíduo. O assistente de submissão do SRA e a transferência de ficheiros baseada em Aspera gerenciam grandes conjuntos de dados.

Arquivo Europeu de Nucleotídeos (ENA)Equivalente ao SRA para projetos europeus; aceita os mesmos tipos de dados e fornece espelhamento entre o SRA e o ENA.

Arquivo de Variação Europeia (EVA)Aceita chamadas de variantes (VCF) com metadados associados. Para projetos em escala populacional, a submissão do VCF chamado em conjunto à EVA é fortemente recomendada para reprodutibilidade.

A CD Genomics fornece pacotes de dados prontos para submissão formatados para SRA/ENA/DDBJ, incluindo folhas de cálculo de metadados validadas que satisfazem os requisitos da INSDC (Colaboração Internacional de Bases de Dados de Sequências Nucleotídicas). O nosso Genotipagem de SNPs em Genoma Completo e Genotipagem por Sequenciação (GBS) os serviços oferecem abordagens de genotipagem complementares quando o WGS excede o orçamento imediato do projeto ou quando a genotipagem focada em variantes conhecidas é suficiente.

Reproduzibilidade e Proveniência de Dados

Para projetos em escala populacional, a reprodutibilidade computacional requer mais do que o compartilhamento de scripts. Fluxos de trabalho em contêiner (imagens Docker ou Singularity com versões de software fixas), arquivos de definição de fluxo de trabalho (scripts Nextflow .nf ou WDL depositados juntamente com o manuscrito) e sementes aleatórias explícitas para algoritmos estocásticos devem ser arquivados. Os scripts da Linguagem de Descrição de Fluxo de Trabalho (WDL) para o pipeline de Melhores Práticas do GATK, por exemplo, são mantidos publicamente no Dockstore e podem ser referenciados por DOI — um padrão que projetos de genômica populacional devem adotar.

Considerações Práticas para o Planeamento de Projetos

Linha do tempo

Um projeto de re-sequenciamento de 500 amostras, 10× WGS para um genoma de 1 Gb segue aproximadamente este cronograma:

Mês 1Coleta de amostras, extração de DNA, QC, normalização, distribuição (paralelizado em placas de 96 poços)

Mês 2Preparação de biblioteca e multiplexação; sequenciação de controlo de qualidade pré-pool

Mês 2-4Sequenciação de profundidade total (6-10 corridas NovaSeq S4, dependendo da densidade de multiplexação)

Mês 3-5Alinhamento e chamada de variantes por amostra (paralelo; pode começar à medida que os dados de sequenciação chegam)

Mês 5-6Genotipagem conjunta, filtragem de variantes, imputação (se aplicável)

Mês 6-8Análises genéticas populacionais, geração de figuras, preparação de manuscritos.

Mês 8-9Submissão de base de dados pública, arquivamento de dados

Duração total do projeto: 8-9 meses desde a receção da amostra até resultados prontos para publicação. Prazos acelerados (4-6 meses) são alcançáveis com sequenciação priorizada, computação em nuvem e execução paralela de pipelines de análise.

Trabalhando com a CD Genomics em Projetos de Grande Escala

Para projetos que envolvem centenas a milhares de amostras, a CD Genomics fornece um gestor de projeto dedicado que coordena a logística das amostras, o agendamento de sequenciação e a entrega de dados. O fluxo de trabalho padrão:

ConsultaDefina os objetivos do projeto, números de amostra, estratégia de cobertura e âmbito da análise. Se características complexas ou estrutura populacional forem o foco principal, a CD Genomics' Estudo de Associação Genómica em Larga Escala (GWAS) o serviço fornece análise integrada de fenótipo-genótipo com correção de modelo misto para a estrutura populacional.
Amostra de entradaAs amostras são registadas no LIMS com tubos codificados em 2D, referenciadas em relação ao manifesto de amostras e sujeitas a QC de entrada (concentração, pureza, integridade).
Lote pilotoAs primeiras 48-96 amostras são processadas através de todo o pipeline — extração, preparação da biblioteca, sequenciação e análise preliminar — para validar a qualidade do DNA, a complexidade da biblioteca e a uniformidade da cobertura. Quaisquer ajustes no protocolo são feitos antes da ampliação para a coorte completa.
Sequenciação da produçãoAs amostras restantes são processadas em lotes de 96, com cada lote a ser monitorizado através do LIMS e sujeito a QC a nível de lote.
Análise conjuntaTodas as amostras são chamadas em conjunto, filtradas e analisadas para os módulos de genética populacional acordados. Os resultados são entregues de forma interativa — gráficos preliminares de PCA e ADMIXTURE, por exemplo, podem ser revistos e discutidos antes que as análises finais sejam realizadas.
Entrega finalDados brutos (FASTQ), dados alinhados (BAM/CRAM), chamadas de variantes (VCF), saídas de análises de genética populacional (figuras e tabelas prontas para publicação) e um documento de métodos abrangente que descreve todos os passos bioinformáticos.

Para uma visão mais ampla de como o re-sequenciamento em larga escala se encaixa no panorama do WGS, desde genomas bacterianos únicos até a montagem de novo de eucariotos não modelo, consulte o nosso Hub de Serviços de Sequenciamento de Genoma CompletoPara projetos que exigem a montagem de um genoma de referência antes da re-sequenciação, consulte o nosso Sequenciação de Genomas de Plantas e Animais de Novo guia. Para orientações sobre a escolha entre estratégias de baixa passagem e alta cobertura com base na sua pergunta de pesquisa específica, consulte o nosso Baixa Frequência vs. Alta Cobertura em WGS: Escolhendo a Profundidade de Sequenciamento Certa para os Seus Objetivos de Investigação e Orçamento.

Perguntas Frequentes

O que é o re-sequenciamento de genoma completo em grande escala e como é diferente da montagem de novo?

Mapeamento de re-sequenciamento em grande escala alinha leituras de centenas a milhares de indivíduos contra um genoma de referência existente para identificar variantes genéticas (SNPs, indels, variantes estruturais) numa população. É fundamentalmente diferente da montagem de novo, que constrói um genoma do zero sem uma referência. O re-sequenciamento é mais rápido e mais barato por amostra, mas requer um genoma de referência de alta qualidade.

Quantas amostras preciso para um estudo de genómica populacional ou GWAS?

Para a estrutura populacional e a história demográfica, 10-30 indivíduos por população com cobertura ≥10× é frequentemente suficiente. Para GWAS, são necessários tamanhos de amostra de centenas a milhares para detectar locos que explicam 0,1-1% da variância fenotípica — cálculos de poder devem orientar esta decisão. Para a seleção genómica, 500-2.000 indivíduos é o padrão para a construção de populações de treino na melhoria de plantas e animais.

Que profundidade de sequenciamento devo escolher para um projeto de re-sequenciamento em grande escala?

A WGS de baixa cobertura (1-4×) com imputação é o padrão para coortes que excedem ~300 amostras, capturando variantes comuns a uma fração do custo de WGS profundo. A cobertura padrão (10-15×) fornece chamadas de variantes raras fiáveis para inferência demográfica e varreduras de seleção. A cobertura profunda (30×) é recomendada para a construção de painéis de referência e deteção de variantes com alta confiança.

Como posso controlar os custos de um projeto com centenas a milhares de amostras?

As três estratégias de maior impacto: (1) utilizar WGS de baixa cobertura + imputação para toda a coorte com um painel de referência personalizado a partir de 10-20% das amostras a 30×, (2) negociar preços por volume e realizar corridas de QC pré-pool para evitar reencaminhamentos dispendiosos, e (3) adotar formatos comprimidos (CRAM, PGEN) para reduzir os custos de armazenamento em 30-98%.

Que infraestrutura bioinformática preciso para a análise conjunta de 1.000 genomas?

Para alinhamento e chamada de variantes por amostra, um cluster HPC de 500 núcleos ou computação em nuvem equivalente pode processar 1.000 genomas 30× em menos de uma semana. Para genotipagem conjunta, são recomendados pelo menos 1 TB de RAM e 50 TB de armazenamento rápido para coortes que excedem 2.000 amostras — momento em que as "Melhores Práticas" do GATK (ReblockGVCF + GnarlyGenotyper) se tornam essenciais. Gestores de fluxo de trabalho (Nextflow, Snakemake) e ferramentas conteinerizadas (Docker, Singularity) são fortemente recomendados para reprodutibilidade.

Posso combinar amostras sequenciadas a diferentes profundidades na mesma análise?

Sim, a genotipagem conjunta com o GATK lida com cobertura heterogénea — isto é rotina em projetos que combinam um painel de referência sequenciado em profundidade com uma coorte de descoberta de baixa cobertura. No entanto, a sensibilidade na chamada de variantes difere consoante a profundidade, pelo que os efeitos de lote devem ser modelados explicitamente. A imputação com o GLIMPSE2 pode harmonizar as diferenças de cobertura ao imputar amostras de baixa cobertura para a resolução do painel de referência.

Quais são os requisitos de armazenamento de dados para um grande projeto de re-sequenciamento?

Um genoma de 30× gera cerca de 200-300 GB de dados totais; um projeto com 1.000 amostras a 10× requer 100-150 TB de armazenamento ativo e 50-80 TB para arquivamento a longo prazo. O custo do armazenamento em nuvem para arquivamento é de aproximadamente 100-400 dólares por mês para um arquivo de 100 TB. Usar CRAM em vez de BAM reduz o armazenamento de alinhamento em 30-50%; o formato PGEN reduz o armazenamento de genótipos em 98%.

Como é que a CD Genomics gere a logística de projetos de re-sequenciamento em grande escala?

A CD Genomics fornece um gestor de projeto dedicado, manuseio de amostras rastreado por LIMS em formato de 96 poços, manuseio automatizado de líquidos para preparação de bibliotecas, execuções de QC pré-pool em cada lote, chamada conjunta de variantes com GATK e uma análise abrangente de genética populacional. Dados brutos (FASTQ), dados alinhados (BAM/CRAM), chamadas de variantes (VCF) e saídas de análise prontas para publicação são entregues com um documento detalhado de métodos. Prazos acelerados estão disponíveis.

Referências:

DePristo MA, Banks E, Poplin R, et al. Uma estrutura para a descoberta de variações e genotipagem utilizando dados de sequenciação de DNA de nova geração. Genética da Natureza. 2011;43(5):491-498. doi:10.1038/ng.806
Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputação de dados de sequenciação de baixa cobertura a partir de 150,119 genomas do UK Biobank. Genética da Natureza2023;55(7):1088-1090. doi:10.1038/s41588-023-01438-3
Chang CC, Chow CC, Tellier LCAM, Vattikuti S, Purcell SM, Lee JJ. PLINK de segunda geração: enfrentando o desafio de conjuntos de dados maiores e mais ricos. GigaScience. 2015;4:7. doi:10.1186/s13742-015-0047-8
Li H. Alinhando leituras de sequências, sequências de clones e contigs de montagem com BWA-MEM. arXiv:1303.3997v2 [q-bio.GN]. 2013. arXiv:1303.3997
Danecek P, Bonfield JK, Liddle J, et al. Doze anos de SAMtools e BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: resumir resultados de análise para várias ferramentas e amostras num único relatório. Bioinformática. 2016;32(19):3047-3048. doi:10.1093/bioinformatics/btw354
Purcell S, Neale B, Todd-Brown K, et al. PLINK: um conjunto de ferramentas para análises de associação de genoma inteiro e análises de ligação baseadas na população. Revista Americana de Genética Humana. 2007;81(3):559-575. doi:10.1086/519795
Zhou X, Stephens M. Análise de modelos mistos eficientes em todo o genoma para estudos de associação. Genética da Natureza. 2012;44(7):821-824. doi:10.1038/ng.2310
Koorevaar T, van de Weg E, Visser RGF, et al. Imputação de genótipos a partir de WGS de baixa cobertura utilizando painéis de referência de haplótipos em morango cultivado. BMC Genómica2025;26(1):968. doi:10.1186/s12864-025-12270-w

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.