What is the difference between de novo sequencing and re-sequencing?

De novo sequencing assembles a genome from scratch without a reference template — required for species without an existing reference genome. Re-sequencing aligns reads to an existing reference genome to identify variants — suitable when a high-quality reference already exists for the species. De novo costs 5–20× more than re-sequencing at equivalent depth because of the additional bioinformatic assembly and annotation work.

How much does whole genome sequencing cost?

Costs vary by genome size and coverage. A bacterial genome (5 Mb, 100×): $100–500. A mammalian genome (3 Gb, 30×): $500–800 for re-sequencing, $5,000–15,000 for de novo with annotation. A large plant genome (10 Gb, 30×): $2,000–5,000 for re-sequencing, $10,000–30,000 for de novo. Low-pass WGS at 1× costs $50–100 per sample for human-scale genomes. These figures are for sequencing and standard bioinformatics only, excluding DNA extraction.

What DNA quantity and quality do I need for WGS?

For Illumina short-read WGS: ≥200 ng of DNA at ≥10 ng/µL, OD 260/280 of 1.8–2.0. For PacBio HiFi: ≥5–15 µg of high-molecular-weight DNA with fragment sizes ≥20 kb. For Oxford Nanopore: ≥5–10 µg of HMW DNA with fragments ≥20 kb for standard libraries, or ≥1 µg for ultra-low input protocols. Degraded DNA with fragments <5 kb can still be sequenced on Illumina platforms but is unsuitable for long-read sequencing.

Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Serviços de Sequenciação do Genoma Completo para Todos os Tamanhos de Genoma: Desde Genomas Bacterianos até Grandes Genomas de Plantas e Animais

Q: Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

Q: How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

Q: What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Q: Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

Q: What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Um microbiologista isolou recentemente uma nova bactéria de sedimentos de fundo marinho e precisa do seu genoma completo — todos os 4,2 megabases — para identificar os clusters de genes biossintéticos que produzem um composto antimicrobiano promissor. Um melhorador de plantas precisa de uma montagem a nível de cromossoma de um genoma hexaploide de aveia de 7,5 gigabases para mapear QTLs de tolerância à seca com resolução sub-centimorgan. Um consórcio de genómica populacional precisa de chamadas de variantes em 3.000 genomas individuais de salmão a um custo que não arruine a bolsa. Estes três projetos envolvem todos o sequenciamento de genoma completo — mas a estratégia de sequenciamento, a seleção da plataforma, a profundidade de cobertura e o orçamento diferem em ordens de magnitude.

O sequenciamento do genoma completo (WGS) é a análise genómica mais completa em termos de informação disponível: captura todo o genoma nuclear, desde genes de cópia única a repetições em tandem e variantes estruturais, sem os preconceitos inerentes a abordagens de enriquecimento direcionado ou de amplicão. No entanto, "sequenciamento do genoma completo" não é um único serviço — é uma família de estratégias que abrange desde a montagem de novo de bactérias a uma escala populacional de re-sequenciamento, com coberturas que variam de 0,4× a 100× e preços que vão de menos de 50 dólares a mais de 10.000 dólares por amostra. Escolher a combinação errada de plataforma, profundidade e pipeline de análise transforma um orçamento apertado em um estudo subdimensionado ou, inversamente, sobre-sequencia uma tarefa rotineira com dinheiro que poderia ter financiado mais três experimentos.

A CD Genomics fornece Sequenciação do Genoma Completo serviços em todo o espectro de tamanhos de genoma, desde genomas bacterianos de 5 Mb até genomas mamíferos de 3 Gb e genomas de plantas de 16 Gb, nas plataformas Illumina, MGI DNBSEQ, PacBio SMRT e Oxford Nanopore. Este artigo é um guia de decisão estratégica: qual abordagem de WGS corresponde ao tamanho do seu genoma, à sua questão biológica e ao seu orçamento.

WGS Bacteriano — O Portal Rápido para a Genómica

O sequenciamento do genoma completo de bactérias é o segmento mais maduro e custo-efetivo do panorama do WGS. Um genoma bacteriano típico de 4-6 Mb pode ser sequenciado, montado e anotado por 100-500 dólares, dependendo da qualidade de montagem e da profundidade de anotação exigidas. A estes preços, o sequenciamento de 100 isolados bacterianos custa menos do que um único genoma de mamífero, tornando o WGS bacteriano o ponto de entrada para laboratórios que estão a adotar novas abordagens genómicas.

Montagem De Novo: Fechando o Genoma

A WGS bacteriana divide-se claramente em montagem de novo (para isolados novos sem um referência) e re-sequenciamento (para comparar estirpes com uma referência existente). A montagem de novo reconstrói o genoma completo a partir de leituras de sequenciamento sobrepostas sem um modelo. A qualidade da montagem — medida pelo N50 de contigs, número de contigs e benchmarking de completude com ferramentas como o BUSCO — depende fortemente da combinação das tecnologias de sequenciamento.

Assembleias de leitura curta, utilizando Illumina NovaSeq ou MGI DNBSEQ com cobertura de 100-200×, produzem contigs altamente precisos (Q40+) mas quebram-se em elementos repetitivos: operões de rRNA, sequências de inserção e regiões de profagos. O genoma rascunho resultante tipicamente consiste em 20-100 contigs em vez de um único cromossoma circular. Para muitas aplicações — identificação de espécies, tipagem MLST, deteção de genes de RAM — isto é suficiente.

Quando é necessária uma fecho completo, a sequenciação de long-read liga os repetidos. As leituras PacBio HiFi (modo CCS, ≥99,9% de precisão em 10-25 kb) ou as leituras Oxford Nanopore (ultra-longas, 50-100+ kb, com a química R10.4.1 a alcançar >99% de precisão modal) são montadas em 1-4 contigs, e um passo de polimento com leituras curtas corrige erros residuais de indel. Esta estratégia híbrida fornece rotineiramente cromossomas bacterianos completos e circularizados sem lacunas — o padrão ouro para genomas de referência de qualidade para publicação. A CD Genomics oferece WGS bacteriano em todas as três plataformas, com recomendações de cobertura de ≥50× para Illumina, ≥100× para PacBio e ≥100× para Nanopore, com requisitos de entrada de DNA tão baixos quanto 200 ng para bibliotecas de leituras curtas e 10-15 µg de DNA de alto peso molecular para plataformas de long-read. O tempo de resposta é de 30-45 dias úteis, dependendo da complexidade da montagem.

Para orientações mais detalhadas sobre projetos de genoma bacteriano, consulte o nosso Sequenciação do Genoma Completo de Bactérias página de serviços.

Além do Genoma: Anotação e Perfilagem Funcional

A montagem de um genoma é metade do projeto. O pipeline de anotação adiciona a camada de interpretação biológica: previsão de genes (sequências codificantes, tRNAs, rRNAs, ncRNAs), anotação funcional contra as bases de dados NR, GO, COG, KEGG, SwissProt, Pfam e CAZy, e análises especializadas para características relevantes do ponto de vista biomédico ou industrial — genes de resistência antimicrobiana (CARD, ResFinder), fatores de virulência (VFDB), reconstrução de plasmídeos, previsão de profagos (PHASTER) e deteção de arranjos CRISPR. Para projetos de genómica comparativa que abrangem dezenas ou centenas de isolados, a análise do pan-genoma identifica o genoma central (genes partilhados por todas as estirpes) e o genoma acessório (genes presentes em subconjuntos), revelando a dinâmica evolutiva de ganho e perda de genes que fundamentam a adaptação a nichos e a patogenicidade.

Bacterial WGS Assembly Quality Comparison — Three-column comparison chart Figura 1: Comparação da Qualidade da Montagem de WGS Bacteriano — Comparação em três colunas mostrando o compromisso entre custo e completude em cada nível. Coluna 1 — Rascunho (Apenas Leitura Curta): Illumina 150 bp PE, ~60 contigs, N50 ~200 kb, ~97% BUSCO, $100-200/genoma, adequado para identificação de espécies e triagem de AMR. Coluna 2 — Quase Completo (Híbrido): PacBio HiFi + polimento Illumina, 1-4 contigs, N50 ~4 Mb, ~99.5% BUSCO, $300-500/genoma, adequado para genomas de referência de qualidade para publicação. Coluna 3 — Completo (Multi-Plataforma): ONT ultra-longo + HiFi, 1 cromossoma circular, 100% BUSCO, $500-800/genoma, adequado para referências completas resolvidas de plasmídeos. Cabeçalhos codificados por cores: laranja (rascunho), amarelo (quase completo), verde (completo).

Planta e Animal De Novo — Desbloqueando Organismos Não Modelo

O sequenciamento de genomas de plantas e animais de novo é um desafio fundamentalmente diferente do sequenciamento de genomas completos de bactérias. Os tamanhos dos genomas variam em quatro ordens de magnitude: o genoma de Arabidopsis thaliana, com 125 Mb, está em uma extremidade, enquanto o genoma hexaploide do trigo, com 16 Gb, ocupa a outra, com conteúdos de repetição que variam de 20% a mais de 85%. A poliploidia — comum em plantas e prevalente em culturas (o trigo para pão é alolexaploide, a batata é autotetraploide, a cana-de-açúcar é octoploide) — confunde os montadores que assumem diploidia. A alta heterozigosidade em espécies de cruzamento gera haplótipos divergentes que, quando colapsados em um único consenso, produzem montagens fragmentadas com conteúdo biológico ausente.

A estratégia tecnológica que resolveu estes problemas é a sequenciação de longas leituras mais captura de conformação da cromatina. As leituras PacBio HiFi (15-25 kb, Q30+) fornecem continuidade ao nível dos contigs, alcançando rotineiramente valores de N50 de contig de 10-50 Mb para genomas de plantas. As leituras ultra-longas da Oxford Nanopore (100+ kb) conectam as maiores repetições — arranjos de ADN ribossómico, satélites centroméricos, duplicações segmentares — que mesmo as leituras HiFi não conseguem abranger. O Hi-C (captura de conformação da cromatina) estrutura os contigs em pseudomoléculas ao nível dos cromossomas, explorando a proximidade física dos segmentos de ADN dentro do mesmo cromossoma. O resultado é uma montagem ao nível do cromossoma com completude de telómero a telómero (T2T) para cada braço cromossómico.

A CD Genomics oferece sequenciação de genoma de novo de plantas e animais de ponta a ponta através de Sequenciação de Genoma Completo de Novo de Plantas e Animais e Serviço de Sequenciação do Genoma Completo De Novo, com estratégias de sequenciação recomendadas estratificadas pela complexidade do genoma:

Genomas simples (≤1 Gb, diploide, conteúdo de repetição moderado): PacBio HiFi com cobertura de 30-50× mais polimento de leituras curtas Illumina. Alvo do N50 do contig: ≥3 Mb.
Genomas complexos (1-5 Gb, poliploide, alta repetição): PacBio HiFi a 50-60× ou ONT a 100×, mais Hi-C a 100× para escoramento em escala de cromossoma. Alvo de N50 do contig: ≥10 Mb.
Genomas muito grandes (>5 Gb, alta ploidia): leituras ultra-longas ONT a 100× mais Hi-C a 100×. Alvo de N50 do contig: ≥5 Mb.

Os requisitos de entrada de DNA são correspondentemente mais elevados do que para o WGS bacteriano: ≥5-15 µg de DNA de alto peso molecular com OD 260/280 de 1,8-2,0 e tamanhos de fragmentos ≥20 kb para bibliotecas de leitura longa. Amostras que não atingem a quantidade ou o comprimento do fragmento podem ainda ser sequenciadas com abordagens apenas de leitura curta a 50-100×, mas a montagem preliminar resultante terá uma contiguidade substancialmente inferior.

Os entregáveis de bioinformática para um projeto de de novo vão muito além da própria montagem: anotação da estrutura genética (previsão ab initio + evidências baseadas em RNA-seq + homologia proteica, integrada com MAKER ou BRAKER), anotação funcional, anotação de repetições (construção de biblioteca de repetições de novo com RepeatModeler + RepeatMasker), anotação de RNA não codificante, identificação de pseudogenes e genómica comparativa com espécies relacionadas. Para espécies agrícolas, análises adicionais incluem mapeamento de QTL, correção da estrutura populacional de GWAS e deteção de varrimentos seletivos.

Um projeto representativo de novo ilustra o impacto da escolha da tecnologia. Um estudo de 2023 que montou o genoma de milho de 2,3 Gb (linha B73-Ab10) utilizando PacBio HiFi a 50× e Hi-C a 100× produziu uma montagem a nível de cromossoma com um N50 de contig de 61,2 Mb e 99,7% de completude BUSCO — capturando as repetições de knob, os arranjos de satélites centroméricos e os clusters de rDNA que derrotaram as montagens de leituras curtas durante duas décadas. Todo o projeto, desde a extração de DNA até o genoma anotado, foi concluído em menos de seis meses a um custo de aproximadamente 15.000 dólares, demonstrando que montagens de qualidade de referência de genomas de plantas complexas são agora alcançáveis dentro de um cronograma e orçamento acessíveis a grupos de pesquisa individuais.

Escalar — Projetos de População e Re-sequenciamento

Uma vez que um genoma de referência existe, o quadro analítico muda de "o que está neste genoma?" para "como é que este genoma difere do referência — e o que significam essas diferenças?" O re-sequenciamento em escala populacional responde a questões sobre diversidade genética, história de domesticação, adaptação local e associações genótipo-fenótipo, comparando centenas a milhares de indivíduos contra uma referência comum.

A economia da sequenciação do genoma completo (WGS) da população transformou-se na última década. O primeiro genoma humano custou aproximadamente 3 mil milhões de dólares. Hoje, um WGS humano de 30× custa aproximadamente 500-800 dólares através de instalações centrais em grande escala, e os genomas agrícolas — com tamanhos semelhantes ao do genoma humano, mas com requisitos de cobertura menos exigentes para a descoberta de variantes — podem ser sequenciados a 10-20× por 150-300 dólares por amostra em lotes de centenas. A estes preços, uma bolsa de 50.000 dólares pode financiar a re-sequenciação de genoma completo de 150-300 indivíduos, em vez dos 15-30 que poderia cobrir há uma década.

A CD Genomics apoia o re-sequenciamento em escala populacional através do seu Reanálise do Genoma Completo serviço de re-sequenciamento de genoma completo de leitura longa. Os entregáveis analíticos para re-sequenciamento diferem fundamentalmente de de novo: chamada de variantes (SNPs, pequenas indels, variantes estruturais, variantes de número de cópias) em relação ao referência, estatísticas de genética populacional (diversidade nucleotídica π, Fst, D de Tajima), decaimento do equilíbrio de ligação, análise da estrutura populacional (PCA, ADMIXTURE, árvores filogenéticas), deteção de varredura seletiva (XP-CLR, iHS, outliers de Fst), e GWAS ou mapeamento de QTL para loci associados a fenótipos.

Para programas de melhoramento agrícola, a integração do WGS com modelos de seleção genómica (GS) e previsão genómica (GP) está a substituir a seleção assistida por marcadores pela previsão de genoma completo: em vez de rastrear um punhado de marcadores ligados a QTL, os melhoradores preveem valores de melhoramento a partir de perfis SNP de todo o genoma, alcançando precisões de previsão de 0,5-0,8 para características complexas como rendimento, tolerância à seca e resistência a doenças. Um estudo de 2024 que re-sequenciou 3.008 salmões do Atlântico com cobertura de 12× identificou 18,7 milhões de SNPs e utilizou a previsão genómica para prever a cor do filete e o teor de gordura, com correlações superiores a 0,7, informando diretamente as decisões de melhoramento na aquicultura.

A logística prática de um projeto em escala populacional difere da genómica em escala de bancada. A extração de DNA torna-se o gargalo — 1.000 amostras requerem extração automatizada em manipuladores líquidos. A preparação de bibliotecas em placas de 96 poços com codificação de barras de dupla indexação minimiza o risco de contaminação cruzada. O sequenciamento em instrumentos NovaSeq X Plus ou MGI DNBSEQ-T7, que geram 6-16 Tb por corrida, processa dezenas a centenas de genomas simultaneamente. A análise bioinformática passa de trabalho interativo em desktop para pipelines de computação de alto desempenho que executam fluxos de trabalho de melhores práticas do GATK ou chamadas baseadas em DeepVariant em clusters de computação.

Decisões de Profundidade — WGS de Baixa Passagem vs Alta Cobertura

Nem todos os projetos precisam de uma cobertura de 30×. O compromisso entre a profundidade de sequenciação e o rendimento de amostras é a decisão mais consequente no design de projetos de WGS, e a resposta ideal depende da questão biológica em vez de um padrão fixo.

WGS de Passa-Baixa (0,4-5×)

A sequenciação do genoma completo de baixa profundidade, também denominada WGS superficial ou WGS de baixa cobertura, sequencia o genoma a uma profundidade média de 0,4-5× e utiliza a imputação de genótipos — inferência estatística de genótipos não observados a partir de um painel de referência de haplótipos — para preencher as lacunas. A abordagem explora o fato de que SNPs adjacentes no mesmo cromossoma são co-herdados em blocos de haplótipos; observar uma fração deles restringe a identidade do restante com alta probabilidade quando existe um painel de referência adequado.

Os números de desempenho são impressionantes. Com uma cobertura de 0,4-1×, o WGS de baixa cobertura recupera >99% das variantes comuns (MAF >1%) com uma precisão de imputação r² >0,9 ao usar painéis de referência grandes e ajustados à população, como o Haplotype Reference Consortium (HRC) ou 1000 Genomes para humanos, ou painéis específicos de raças para gado. Para GWAS, o WGS de baixa cobertura a 1× iguala ou supera o poder estatístico de arrays de SNP de alta densidade (600K-900K marcadores) enquanto detecta variantes novas que arrays fixos perdem por design. O custo por amostra a 1× de cobertura varia entre $50-100, em comparação com $30-80 para um array de SNP de alta densidade — mas os dados de WGS são reutilizáveis para análises futuras à medida que os painéis de referência e os algoritmos de imputação melhoram, enquanto os dados de arrays estão bloqueados aos marcadores no chip.

A CD Genomics oferece WGS de baixo custo através do seu Sequenciação Genómica Superficial serviço em plataformas Illumina e MGI, com pipelines de análise padronizados que fornecem genótipos imputados, análise da estrutura populacional e dados prontos para GWAS.

WGS de Alta Cobertura (30×+)

WGS profundo a 30× ou mais de cobertura proporciona observação direta de variantes em vez de inferência dependente de imputação. Isto é necessário quando: (a) as variantes de interesse são raras (MAF <0,1%) e a precisão da imputação degrada abaixo de r² de 0,6-0,8; (b) variantes estruturais — deleções, duplicações, inversões e translocações — são os principais alvos, uma vez que estas são mal imputadas a partir de dados de baixa cobertura; (c) mutações de novo devem ser detectadas, uma vez que estas estão ausentes de qualquer painel de referência por definição; (d) a população carece de um painel de referência de imputação adequado, como é comum em organismos não modelo e populações sub-representadas.

O custo do WGS profundo diminuiu, mas continua a ser substancial para grandes coortes. Um genoma humano a 30× custa entre 500-800 dólares; um genoma bovino (de tamanho semelhante) custa entre 400-600 dólares. Para genomas de plantas que excedem 5 Gb, a cobertura a 30× eleva os custos para 2,000-5,000 dólares por amostra. A estes preços, o WGS profundo é reservado para montagens de qualidade de referência, coortes de descoberta que informam o desenho de estudos subsequentes e projetos onde a questão analítica realmente requer a observação direta de variantes.

Estrutura de Decisão: Baixa Passagem vs Alta Cobertura

A escolha entre WGS de baixa cobertura e alta cobertura depende de quatro fatores:

Desenho do estudo: GWAS de variantes comuns em populações bem caracterizadas → baixa profundidade. Associação de variantes raras, descoberta de SV ou deteção de mutações de novo → alta profundidade.
Disponibilidade do painel de referência: Painéis de referência de alta qualidade, ajustados à população → low-pass é viável. Sem painel de referência → WGS profundo é necessário.
Atribuição do orçamento: Orçamento fixo de $50,000 → aproximadamente 500-1,000 amostras em baixa frequência contra 50-100 amostras em profundidade. O poder estatístico para GWAS de variantes comuns favorece o maior tamanho da amostra.
Utilidade futura: Dados destinados a reutilização em várias análises ao longo dos anos → WGS profundo oferece a maior flexibilidade. Análise de propósito único com arquivo → low-pass é suficiente.

Para uma comparação mais detalhada de arrays SNP, WGS de baixo custo e WGS profundo com referências de custo e precisão, consulte a CD Genomics. Um Guia para Iniciantes sobre Sequenciação de Genoma Completo de Baixa Passagem.

The WGS Depth-Cost-Performance Continuum — Three-zone visualization Figura 2: O Continente de Profundidade-Custo-Desempenho do WGS — Uma visualização em três zonas. Zona A: Baixa-Passagem (0.4-5×, $50-100/amostra, >99% variantes comuns via imputação, ideal para GWAS). Zona B: Moderada (10-20×, $150-300/amostra, chamada direta de variantes, ideal para genómica populacional). Zona C: Profunda (30-100×, $500-5000/amostra, deteção abrangente de variantes, ideal para genomas de referência e variantes raras). Eixo X: profundidade de sequenciação. Eixo Y: custo por amostra (escala logarítmica). Gradiente de cor do claro (baixa-passagem) ao escuro (profunda).

Como a CD Genomics Fornece WGS

Um projeto de WGS na CD Genomics segue um pipeline padronizado e controlado por qualidade desde a submissão da amostra até dados prontos para publicação, com seleção de plataforma, cobertura e análise bioinformática adaptadas ao tamanho do genoma do projeto e aos objetivos de pesquisa.

Fluxo de Trabalho de Amostra para Dados

Passo 1: Submissão da amostra e controlo de qualidade. Os clientes submetem DNA extraído ou amostras biológicas para extração. O QC de entrada mede a concentração (fluorometria Qubit), pureza (razões Nanodrop 260/280 e 260/230) e integridade (eletroforese em gel de agarose ou TapeStation para distribuição do tamanho dos fragmentos). As amostras que falham no QC são sinalizadas imediatamente, e um plano de reextração ou reenvio é coordenado.

Passo 2: Construção da biblioteca. Bibliotecas específicas da plataforma são preparadas com o tamanho de inserção apropriado (350-500 bp para WGS de leitura curta, 15-20 kb para PacBio HiFi, sem seleção de tamanho para ONT ultra-longo). Para projetos em escala populacional, a codificação de barras de dupla indexação em placas de 96 poços garante a rastreabilidade das amostras e minimiza os artefatos de troca de índice.

Passo 3: Sequenciação. A profundidade de sequenciamento é monitorizada em tempo real. Para as plataformas Illumina e MGI, um mínimo de 80% das bases a ≥Q30 é padrão. Para PacBio HiFi, são geradas leituras CCS com ≥Q30 (99,9% de precisão). Para ONT, as mais recentes células de fluxo R10.4.1 com chamada de bases super precisa (dorado) oferecem >99% de precisão modal.

Passo 4: Bioinformática. O pipeline de análise é adaptado ao tipo de projeto. A montagem de novo utiliza Hifiasm (HiFi), Flye (ONT) ou Unicycler (híbrido). A análise baseada em referência utiliza BWA-MEM2 + GATK4 ou DeepVariant. A anotação funcional utiliza Prokka (bactérias) ou MAKER2/BRAKER3 (eucariotos). Todos os pipelines incluem métricas de qualidade: estatísticas de montagem (N50, L50, completude BUSCO), taxas de chamada de variantes e razões de transição/transversão, e gráficos de uniformidade de cobertura.

CD Genomics' Sequenciação do Genoma Completo serviços e Serviço de Sequenciação do Genoma Completo De Novo cobrem em conjunto todo o espectro de tamanhos de genomas e escalas de projetos, desde isolados bacterianos únicos até coortes populacionais de milhares de amostras.

WGS Platform Selection Guide — Decision matrix table Figura 3: Guia de Seleção de Plataforma WGS — Uma tabela de matriz de decisão com quatro colunas. As linhas representam tipos de projeto (Bacterial De Novo, Plant De Novo, Animal De Novo, Population Re-Seq, Low-Pass GWAS). Colunas: Plataforma(s) Recomendada(s), Cobertura, Entrada de DNA, Custo Aproximado/Sample, Tempo de Resposta. Células codificadas por cores indicam escolhas ótimas (verde), viáveis (amarelo) e não recomendadas (vermelho).

Perguntas Frequentes

Qual é a diferença entre sequenciação de novo e re-sequenciação?

O sequenciamento de novo monta um genoma do zero sem um modelo de referência — necessário para espécies sem um genoma de referência existente. O re-sequenciamento alinha as leituras a um genoma de referência existente para identificar variantes — adequado quando já existe um referência de alta qualidade para a espécie. O sequenciamento de novo custa 5-20× mais do que o re-sequenciamento a uma profundidade equivalente devido ao trabalho adicional de montagem e anotação bioinformática.

Qual é o custo do sequenciamento do genoma completo?

Os custos variam de acordo com o tamanho do genoma e a cobertura. Um genoma bacteriano (5 Mb, 100×): 100-500 dólares. Um genoma mamífero (3 Gb, 30×): 500-800 dólares para re-sequenciamento, 5,000-15,000 dólares para de novo com anotação. Um grande genoma de planta (10 Gb, 30×): 2,000-5,000 dólares para re-sequenciamento, 10,000-30,000 dólares para de novo. O WGS de baixa cobertura a 1× custa 50-100 dólares por amostra para genomas em escala humana. Estes valores referem-se apenas ao sequenciamento e bioinformática padrão, excluindo a extração de DNA.

Que quantidade e qualidade de ADN preciso para WGS?

Para WGS de leitura curta da Illumina: ≥200 ng de DNA a ≥10 ng/µL, OD 260/280 de 1,8-2,0. Para PacBio HiFi: ≥5-15 µg de DNA de alto peso molecular com tamanhos de fragmentos ≥20 kb. Para Oxford Nanopore: ≥5-10 µg de DNA HMW com fragmentos ≥20 kb para bibliotecas padrão, ou ≥1 µg para protocolos de entrada ultra-baixa. DNA degradado com fragmentos <5 kb ainda pode ser sequenciado em plataformas Illumina, mas não é adequado para sequenciamento de leitura longa.

Por que usar sequenciação de leituras longas para montagem de novo?

Leituras curtas (150-300 bp) não conseguem abranger elementos repetitivos — transposões, duplicações segmentares, centrómeros, arranjos de rRNA — que são mais longos do que o comprimento da leitura. O montador encontra uma repetição, não consegue determinar quantas cópias existem ou como estão organizadas, e divide a montagem em contigs. Leituras longas (10-100+ kb) abrangem a maioria das repetições, produzindo 50-500× menos contigs e resolvendo a arquitetura do genoma que as montagens de leituras curtas colapsam. Para genomas poliploides, leituras longas podem separar haplótipos em montagens distintas em vez de colapsá-los em um único consenso mosaico.

Como escolho entre Illumina, PacBio e Nanopore para o meu projeto?

Illumina/MGI: maior precisão bruta (Q30+), menor custo por Gb, ideal para re-sequenciamento e chamada de variantes. PacBio HiFi: alta precisão (Q30+) com leituras de 15-25 kb, ideal para montagem de novo de genomas de tamanho moderado (≤3 Gb). Oxford Nanopore: leituras mais longas (100+ kb) com precisão moderada (Q20+, em melhoria), ideal para resolver estruturas de repetição ultra-complexas em genomas muito grandes. Abordagens híbridas combinam plataformas: leituras longas para continuidade da montagem + leituras curtas para polimento de precisão a nível de base.

Qual é o tempo de resposta para um projeto de WGS?

O prazo padrão é de 30 a 45 dias úteis para WGS bacteriano e de 45 a 60 dias úteis para projetos de de novo em plantas/animais, dependendo do tamanho do genoma, cobertura e complexidade da análise. Projetos de re-sequenciamento em escala populacional com centenas a milhares de amostras podem estender-se a 60-90 dias úteis devido ao rendimento da preparação da biblioteca e ao volume de processamento de dados. Prazos acelerados estão disponíveis para projetos sensíveis ao tempo.

A CD Genomics pode lidar com projetos de genómica populacional em grande escala?

Sim. A CD Genomics apoia projetos de re-sequenciamento em escala populacional com extração automatizada de DNA, preparação de bibliotecas em placas de 96 poços e sequenciação nas plataformas NovaSeq X Plus ou MGI DNBSEQ-T7. Projetos que variam de 100 a mais de 10.000 amostras são acomodados, com preços em camadas que reduzem os custos por amostra à medida que o tamanho do lote aumenta.

Quais são os entregáveis de bioinformática que recebo?

Os entregáveis padrão incluem dados de sequenciação brutos (FASTQ), relatórios de controlo de qualidade (FastQC, MultiQC) e saídas específicas de análise: genoma montado (FASTA) com anotação (GFF/GBK) para projetos de de novo; arquivos de chamada de variantes (VCF) com anotação para re-sequenciamento; genótipos imputados para WGS de baixa cobertura. Todos os dados são entregues através de download seguro ou disco rígido para conjuntos de dados grandes. Análises bioinformáticas personalizadas estão disponíveis para requisitos de pesquisa específicos.

Referências:

Li H, Durbin R. Alinhamento rápido e preciso de leituras curtas com a transformação de Burrows-Wheeler. Bioinformática2009;25(14):1754-1760. doi:10.1093/bioinformatics/btp324
Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM. Canu: montagem de leituras longas escalável e precisa através de ponderação adaptativa de k-mer e separação de repetições. Pesquisa Genómica2017;27(5):722-736. doi:10.1101/gr.215087.116
Vaser R, Sovic I, Nagarajan N, Sikic M. Montagem de genoma de novo rápida e precisa a partir de leituras longas não corrigidas. Pesquisa Genómica. 2017;27(5):737-746. doi:10.1101/gr.214270.116
Nurk S, Koren S, Rhie A, et al. A sequência completa de um genoma humano. Ciência. 2022;376(6588):44-53. doi:10.1126/science.abj6987
Wick RR, Judd LM, Gorrie CL, Holt KE. Unicycler: Resolvendo montagens de genomas bacterianos a partir de leituras de sequenciação curtas e longas. PLoS Biologia Computacional. 2017;13(6):e1005595. doi:10.1371/journal.pcbi.1005595
Li H. Alinhamento proteína-genoma com miniprot. Bioinformática. 2023;39(1):btad014. doi:10.1093/bioinformatics/btad014
De Coster W, Weissensteiner MH, Sedlazeck FJ. Rumo ao sequenciamento de long-read em escala populacional. Nature Reviews Genetics. 2021;22(9):572-587. doi:10.1038/s41576-021-00367-3
Delaneau O, Zagury J-F, Robinson MR, Marchini JL, Dermitzakis ET. Estimativa de haplótipos precisa, escalável e integrativa. Comunicações da Natureza. 2019;10:5436. doi:10.1038/s41467-019-13225-y

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.