What is de novo genome assembly, and when is it needed?

De novo genome assembly reconstructs a complete genome sequence from overlapping sequencing reads without a reference template. It is required when no high-quality reference genome exists for the species — which is the case for the vast majority of plants and animals on Earth.

How much does de novo genome sequencing cost for a plant or animal genome?

Cost scales with genome size and complexity. A 500 Mb diploid genome at chromosome-scale costs approximately $5,000-10,000. A 1-2 Gb genome at T2T quality costs $10,000-20,000. Large polyploid plant genomes (5-16 Gb) can cost $20,000-35,000.

Why is a genome survey recommended before full de novo sequencing?

A $200-500 genome survey (shallow Illumina + GenomeScope k-mer analysis) estimates genome size, heterozygosity, repeat content, and ploidy. This information determines how much sequencing is needed, which platforms are optimal, and whether specialized phasing or polyploid-aware assembly strategies are required.

What is the difference between chromosome-scale and T2T assembly?

A chromosome-scale assembly has contigs ordered and oriented into chromosomes but may contain gaps at repetitive regions. A T2T (telomere-to-telomere) assembly is gapless — every chromosome is a single continuous sequence from telomere to telomere, including centromeres. T2T requires ONT ultralong reads in addition to HiFi and Hi-C.

Do I need Hi-C data for my de novo genome?

For publication-quality reference genomes, yes. Hi-C provides the long-range linkage information needed to order and orient contigs into complete chromosomes. Without Hi-C, a HiFi assembly may produce 500-2,000 contigs; with Hi-C scaffolding, >90% of the assembly is typically anchored into chromosome-scale scaffolds.

What DNA input is required for plant and animal de novo sequencing?

For PacBio HiFi: ≥5 µg of HMW DNA, fragments ≥30 kb. For ONT ultralong: ≥10 µg DNA, N50 ≥50 kb (ideally ≥100 kb). For Hi-C: ≥1-2 µg of crosslinked DNA. DNA should be from a single individual for de novo assembly; pooled samples introduce artificial heterozygosity.

How long does a de novo genome project take from sample to completed assembly?

A typical project timeline is 4-6 months: sample prep (1-2 weeks), genome survey (2-3 weeks), sequencing (6-12 weeks), assembly and scaffolding (3-4 weeks), annotation (4 weeks), and curation/submission (4 weeks).

What bioinformatic deliverables are included in a CD Genomics de novo sequencing project?

Standard deliverables: raw sequencing data (FASTQ), QC report, assembled genome (FASTA), BUSCO/QV/k-mer QC metrics, repeat annotation (GFF), gene prediction (GFF3), and functional annotation (GO, KEGG, InterProScan, Swiss-Prot, NR). Publication-ready files formatted for NCBI/ENA/DDBJ submission are included.

Sequenciação de Genomas de Plantas e Animais de Novo: Estratégias para Espécies Não Modelo com Integração de Leitura Longa e Leitura Curta

O Desafio Não-Modelo — Por Que a Montagem De Novo É Difícil

Organismos modelo — humano, rato, Arabidopsis, Drosófila, zebrafish — beneficiam de décadas de genomas de referência curados, anotação de genes e infraestrutura comunitária. Todas as outras espécies são "não-modelo", e a montagem dos seus genomas apresenta um conjunto distinto de desafios que os pipelines de organismos modelo nunca foram concebidos para lidar.

Sem Referência, Sem Estrutura

Sem um genoma de referência, não há um modelo para alinhar as leituras. O montador deve reconstruir o genoma apenas a partir das sobreposições das leituras — um problema gráfico computacionalmente intensivo onde sequências repetitivas criam ambiguidades. Um elemento Alu de 300 pb é resolvido de forma trivial por uma leitura HiFi de 15 kb; um retrotransposão LTR de 5 kb que ocorre em 10.000 cópias pelo genoma exige uma combinação de continuidade HiFi e leituras ultralongas ONT para ser resolvido.

Heterozigose — O Problema dos Dois Haplótipos

Organismos não-modelo, particularmente populações selvagens com grandes tamanhos efetivos de população, podem exibir heterozigosidade extrema. Um invertebrado marinho com 5% de locais heterozigóticos produz dois haplótipos distintos que diferem a cada vigésimo nucleotídeo. Um montador padrão confrontado com esses dados produz dois resultados, ambos ruins: colapsa os dois haplótipos em um único "consenso" que não é nenhum dos dois, criando uma montagem em mosaico com indels artefatuais; ou separa os haplótipos de forma tão agressiva que dobra o tamanho esperado do genoma, montando cada haplótipo como um "genoma" separado. A solução é a montagem ciente do haplótipo — o modo de agrupamento em trio do hifiasm (usando leituras curtas parentais para particionar leituras longas por haplótipo) ou a fase integrada por Hi-C, que utiliza contactos de cromatina para determinar quais variantes coocorrem no mesmo cromossoma físico.

Poliploidia — Mais de Duas Cópias

Muitas plantas são poliplóides. O trigo para pão (Trigo comum) é hexaplóide (2n = 6x = 42), a cana-de-açúcar é octaplóide a decaplóide, e o género do morango Fragaria abrange espécies diploides a decaploides. Genomas poliploides apresentam um pesadelo de contagem de k-mer: em vez da estrutura de pico heterozigoto/homozigoto limpa que o GenomeScope modela para diploides, os espectros de k-mer poliploides contêm picos sobrepostos de subgenomas com ancestralidade compartilhada (homeólogos). O GenomeScope 2.0 com Smudgeplot pode estimar a ploidia de novo e separar as contribuições dos subgenomas, mas a montagem de poliploides ainda requer estratégias de faseamento de subgenomas — distinguindo quais cópias homeólogas pertencem a qual subgenoma ancestral — que continuam a ser uma fronteira de pesquisa ativa.

Conteúdo Repetido e Tamanho do Genoma

Os genomas das plantas são ricos em repetições de maneiras que os genomas dos animais não são. O genoma do trigo pão de 16 Gb é composto por 85% de elementos transponíveis. O genoma do pinheiro loblolly de 22 Gb contém expansões massivas de retrotransposões LTR. Um estudo de benchmarking de 2024 na Frontiers in Bioinformatics (Obinu et al.) demonstrou que, mesmo com leituras HiFi, a continuidade da montagem do genoma das plantas pode variar em uma ordem de magnitude dependendo do scaffolder utilizado — o YaHS alcançou um N50 de contig de 32,66 Mb em contigs de Arabidopsis montados com HiFi, enquanto o 3D-DNA produziu apenas 3,41 Mb, sublinhando que a seleção de ferramentas é criticamente importante para genomas complexos.

Inquérito Genómico — Medir Duas Vezes, Sequenciar Uma Vez

Antes de se comprometer com uma montagem de de novo completa, o passo mais rentável é um inquérito genómico — sequenciação Illumina superficial (30-50×) seguida de análise de frequência de k-mer com o GenomeScope 2.0. Este investimento de $200-500 responde a quatro perguntas que determinam cada decisão subsequente:

Qual é o tamanho do genoma? O GenomeScope estima o comprimento do genoma haploide a partir da distribuição de cobertura de k-mer. Isto determina os requisitos de profundidade de sequenciação. Um genoma de 500 Mb com cobertura HiFi de 30× necessita de cerca de 15 Gb de dados HiFi; um genoma de 5 Gb com a mesma cobertura necessita de 150 Gb — uma diferença de 10× no custo de sequenciação.

2. Quão heterozigoto é? A heterozigosidade acima de 0,5% indica que é necessária uma montagem ciente do haplótipo. Acima de 2%, deve-se considerar fortemente o trio-binning ou dados parentais. Acima de 5%, espera-se investir significativamente mais tanto na profundidade de sequenciação quanto na curadoria da montagem.

3. Quão repetitivo é? A proporção de sequência única estimada pelo GenomeScope indica qual fração do genoma é não repetitiva. Abaixo de 50% de sequência única, leituras ultralongas da ONT tornam-se críticas para abranger os maiores repetições. Abaixo de 30%, considere adicionar mapeamento óptico (Bionano) à combinação de tecnologias.

4. É poliplóide? Smudgeplot, uma ferramenta complementar ao GenomeScope 2.0, analisa pares de k-mer heterozigóticos para estimar a ploidia de novo. Um diploide produz duas distribuições principais de pares de k-mer heterozigóticos; um tetraploide produz quatro. Esta informação determina se são necessárias estratégias de faseamento de subgenomas.

O fluxo de trabalho prático: extrair ADN de alto peso molecular → sequenciar 30-50× Illumina (NovaSeq, 2×150 bp) → contar k-mers com Jellyfish ou KMC (k=21) → carregar o histograma para genomescope.org → interpretar o ajuste do modelo. Um ajuste do modelo acima de 70% é aceitável; abaixo de 50%, aumentar a profundidade de sequenciação ou tentar múltiplos tamanhos de k-mer (k=17, 21, 27) para verificar a consistência. O relatório leva de 24 a 48 horas a partir da receção dos dados e pode poupar milhares de dólares ao prevenir montagens sub-sequenciadas que são irreparáveis a montante.

GenomeScope 2.0 k-mer spectrum plot showing error peak, heterozygous peak, and homozygous peak with estimated genome parameters. Figura 2: Saída da Pesquisa GenomeScope 2.0 — Um exemplo emoldurado de gráfico de espectro k-mer (k=21) de um genoma diploide com ~1% de heterozigose, anotado para mostrar o pico de erro, pico heterozigoto (1n) e pico homozigoto (2n). Abaixo do gráfico, uma tabela resumo de parâmetros estimados: Tamanho do Genoma, Heterozigose, % de Repetição e % de Ajuste do Modelo. Uma pesquisa Illumina de 30-50× com custo de $200-500 orienta todas as decisões de sequenciamento subsequentes.

A Pilha de Tecnologia para Montagem De Novo

A montagem moderna de genomas de novo é uma operação de múltiplas plataformas e múltiplos tipos de dados. Nenhuma tecnologia de sequenciação única produz uma montagem completa e precisa em escala de cromossoma de um genoma eucariótico não modelo. O conjunto de tecnologias padrão, conforme validado pelo Projeto de Genomas de Vertebrados (VGP) e pelo Projeto Earth BioGenome (EBP), combina quatro tipos de dados:

PacBio HiFi — A Espinha Dorsal da Contiguidade

As leituras HiFi da PacBio (modo CCS, comprimento modal de 15-25 kb, ≥99,9% de precisão) são a base da montagem de novo moderna. Com uma cobertura de 30-60×, as leituras HiFi produzem montagens de contigs com N50s na faixa de megabases a dezenas de megabases para genomas de até vários gigabases. O montador hifiasm (Cheng et al., 2021) tornou-se o padrão de facto — integra nativamente leituras HiFi, contactos Hi-C e leituras curtas parentais opcionais para agrupamento de trios em um único gráfico de montagem, produzindo montagens primárias e alternativas resolvidas por haplótipos em uma única execução. Para genomas com menos de 3 Gb, montagens apenas com HiFi e 40× de cobertura, juntamente com andaimes Hi-C, entregam rotineiramente >95% de completude BUSCO e N50s de andaimes em escala de cromossoma.

Oxford Nanopore Ultralongo — O Repetidor de Espaços

leituras ultralongas ONT (50-300+ kb, química R10.4.1, >99% de precisão modal com chamada de bases super-precisa Dorado) servem a um propósito diferente: elas abrangem os maiores elementos repetitivos que até mesmo as leituras HiFi não conseguem cobrir. Os satélites centroméricos (arranjos em escala de Mb de repetições alfa-satélites de 171 bp em primatas, ou a repetição CentO de 156 bp em arroz), arranjos de rDNA (repetições 45S presentes em centenas a milhares de cópias em tandem) e duplicações segmentares (>10 kb, >90% de identidade) todos excedem o limite de 25 kb das leituras HiFi, mas estão dentro do alcance de uma única leitura ultralonga ONT. Em um fluxo de trabalho típico de montagem T2T, as leituras ultralongas ONT com cobertura de 15-20× são co-montadas com leituras HiFi — seja integradas no gráfico de montagem hifiasm (hifiasm --ul) ou montadas separadamente com Flye ou NextDenovo e depois mescladas via quickmerge ou RagTag. A CD Genomics oferece Sequenciação Ultra-Longa por Nanoporos na plataforma PromethION com química R10.4.1 e basecalling super-preciso Dorado, fornecendo rotineiramente N50s de leitura acima de 100 kb para fecho de lacunas e finalização T2T.

Hi-C — Dos Contigs aos Cromossomas

O Hi-C (captura de conformação da cromatina) fornece informações de ligação de longo alcance que preenchem lacunas em escala de megabases entre contigs. No protocolo Hi-C, a cromatina é entrelaçada com formaldeído, digerida com uma enzima de restrição e religada de forma que fragmentos de DNA que estavam fisicamente próximos no núcleo fiquem ligados entre si. O sequenciamento dessas moléculas quiméricas revela quais contigs pertencem ao mesmo cromossomo e, criticamente, a sua ordem e orientação. O scaffolder atualmente recomendado é o YaHS (Zhou et al., 2023), que foi avaliado como o melhor desempenho para genomas de plantas em um estudo de 2024 (Obinu et al., Frontiers in Bioinformatics), alcançando um N50 de scaffold de 32,66 Mb em comparação com 3,41 Mb para o 3D-DNA na mesma entrada de montagem HiFi. Recomenda-se uma cobertura mínima de 100× de Hi-C; para genomas grandes (>3 Gb), 150× proporciona contatos de longo alcance mais robustos. A CD Genomics oferece serviços dedicados. Sequenciação Hi-C com as enzimas de restrição DpnII e MboI, integradas com o pipeline de scaffolding YaHS para fornecer montagens em escala de cromossoma a partir de entradas de contigs HiFi.

Leituras Curtas da Illumina — O Polimento da Precisão

Mesmo as leituras HiFi apresentam erros sistemáticos em corridas de homopolímeros e em contextos extremos de GC. As leituras curtas da Illumina (2×150 bp, 30-50× de cobertura) fornecem correção de erro ortogonal — o perfil de erro da Illumina é dominado por substituições e é independente do perfil de erro dominado por indels da PacBio/ONT. Ferramentas como Pilon, NextPolish e POLCA utilizam alinhamentos de leituras da Illumina para corrigir erros residuais de base na montagem de leituras longas, melhorando a precisão do consenso de ~Q40 (um erro por 10.000 bp) para ~Q50-60 (um erro por 100.000 a 1.000.000 bp). Para genomas de referência de qualidade de publicação, o polimento da Illumina é padrão.

Um resultado representativo do Projeto de Genomas de Vertebrados ilustra o que este conjunto de tecnologias oferece na prática. O bandicoot riscado oriental (Perameles gunnii), um marsupial em perigo de extinção com um genoma de ~3,6 Gb, foi montado a escala de cromossoma usando dados de 46× PacBio HiFi, 20× ONT ultralong e 110× Hi-C. A montagem resultante ancorou 97,8% do genoma em 14 pseudocromossomas correspondentes ao cariótipo conhecido, alcançando um N50 de scaffold de 155 Mb e 95,7% de completude BUSCO (mammalia_odb10). O custo total de sequenciação foi de aproximadamente $12,000 — um genoma de referência completo para uma espécie de prioridade de conservação a aproximadamente o custo de um único genoma humano Illumina há uma década.

Juntando Tudo — Uma Receita para uma Assembleia Representativa

Para um genoma de animal diploide não modelo de ~1,5 Gb com heterozigose moderada (~1%):

Tipo de Dados	Plataforma	Cobertura	Propósito	Custo Aproximado
Inquérito Genómico	Illumina NovaSeq 2×150	30-50×	análise de k-mer, estimativa de tamanho do genoma/heterozigosidade/repetição	200-500 dólares
Montagem HiFi	PacBio Revio	40×	Montagem de contigs, faseamento de haplótipos	4.000-6.000
Ultralongo	ONT PromethION R10.4.1	15×	Repetição de abrangência, fecho de lacunas	2.000-4.000
Hi-C	Illumina NovaSeq	100×	Estruturação em escala de cromossoma	1.500-2.500
Illumina Polaco	Illumina NovaSeq 2×150	30×	Correção de erros a nível básico	300-500 dólares
Total				8.000-13.500

Para um genoma de planta de tamanho semelhante, mas com poliploidia ou >70% de conteúdo repetitivo, aumente a cobertura HiFi para 60× e ONT para 20×, e adicione mapeamento óptico Bionano para verificação independente de andaimes — custo total de aproximadamente $15,000-25,000.

A CD Genomics oferece pacotes de sequenciação de novo integrados que combinam estes tipos de dados em um único fluxo de trabalho de projeto. Para os projetos mais exigentes — onde um genoma de referência completo e sem lacunas é o objetivo explícito — o Serviço de Montagem de Genoma T2T fornece montagens completas de telômero a telômero com centrômeros resolvidos, validadas pela identificação de repetições de telômero nos terminais dos cromossomas e uma completude BUSCO >98%. Para orientações sobre a seleção da estratégia de montagem ideal para o seu genoma específico — incluindo compensações na mistura de tecnologias, abordagens conscientes da ploidia e otimização de orçamento — consulte o nosso Estratégia de Montagem do Genoma página de consulta.

De Novo Genome Assembly Technology Stack: layered diagram showing PacBio HiFi, ONT Ultralong, Hi-C, and Illumina with their roles in assembly. Figura 1: Pilha de Tecnologia de Montagem de Genoma De Novo — Um diagrama em camadas mostrando os quatro tipos de dados e os seus papéis. Camada superior: PacBio HiFi (30-60×, leituras de 15-25 kb) rotulada como "Espinha Dorsal do Contig." Segunda camada: ONT Ultralonga (15-20×, leituras de 50-300+ kb) rotulada como "Espalhador de Repetições." Terceira camada: Hi-C (100×) rotulada como "Escaffold de Cromossomas." Camada inferior: Illumina (30×, 2×150 bp) rotulada como "Polimento de Precisão." Lado direito: visualização da montagem final mostrando contigs → cromossoma escaffold → cromossoma T2T sem lacunas.

Anotação do Genoma — Tornar a Montagem Interpretável

Um genoma montado sem anotação é um mapa sem rótulos. O pipeline de anotação transforma um ficheiro FASTA de contigs em um catálogo de genes funcionalmente anotados, adequado para genómica comparativa, genética populacional e estudos funcionais. Para eucariotos não modelo, o pipeline de anotação tem três fases.

Fase 1: Máscara de Repetição

Antes da previsão de genes, os elementos repetitivos devem ser identificados e suavemente mascarados (convertidos para letras minúsculas para que sejam ignorados pelos preditores de genes sem serem removidos). O fluxo de trabalho padrão constrói uma biblioteca de repetições de novo com o RepeatModeler2, que identifica sequências repetitivas ab initio ao detectar sequências presentes em múltiplas cópias ao longo da montagem, e depois as classifica em relação ao RepBase (se as repetições do organismo estiverem representadas) ou Dfam. A biblioteca de novo é então utilizada pelo RepeatMasker para anotar e suavemente mascarar repetições em todo o genoma. Para grandes genomas de plantas, o EDTA (Extensive de-novo TE Annotator; Ou et al., 2019) oferece uma alternativa mais rápida e abrangente que lida especificamente com retrotransposões LTR — a classe de repetição dominante na maioria dos genomas de plantas.

Fase 2: Predição de Genes

A previsão de genes eucariotos beneficia da integração de múltiplas linhas de evidência. O BRAKER3 (Gabriel et al., 2021) é o estado da arte atual: ele executa o GeneMark-ETP para previsão de genes não supervisionada a partir da sequência do genoma, o AUGUSTUS para previsão guiada por homologia utilizando evidência proteica de espécies relacionadas (tipicamente o conjunto de proteínas OrthoDB para o clado taxonómico relevante) e alinhamentos de leituras de RNA-seq (se disponíveis) para definir limites exon-intrão com resolução de nucleótidos. O TSEBRA combina então as previsões do GeneMark-ETP e do AUGUSTUS em um conjunto de genes de consenso ponderado. Para organismos com dados de RNA-seq disponíveis de múltiplos tecidos, o modo RNA-seq do BRAKER3 melhora dramaticamente a precisão do modelo de genes, particularmente para limites de UTR e isoformas de splicing alternativo. CD Genomics' RNA-Seq o serviço fornece a evidência de transcritos específicos de tecido — a partir de bibliotecas de mRNA selecionadas por poli(A) sequenciadas na plataforma Illumina NovaSeq — que o BRAKER3 utiliza para definir os limites exon-intrão com resolução de nucleótidos. Para organismos não modelo onde os isoformas de transcritos de comprimento completo fornecem a evidência mais forte para a estrutura do gene, a CD Genomics' Sequenciação de Transcritos de Comprimento Total (Iso-Seq) na plataforma PacBio captura isoformas de transcritos completos sem a ambiguidade de montagem dos transcriptomas de leituras curtas. Para organismos não-modelo profundamente estudados onde não existem dados de RNA-seq, o GALBA (Bruna et al., 2021) utiliza evidências proteicas de espécies evolutivamente distantes para orientar a predição de genes através de um pipeline de alinhamento de proteínas para genoma baseado em miniprot — trocando a precisão específica da espécie por uma ampla aplicabilidade filogenética.

Fase 3: Anotação Funcional

Os genes codificadores de proteínas previstos são anotados funcionalmente por similaridade de sequência em relação a bases de dados curadas: NR (base de dados de proteínas não redundantes), Swiss-Prot (curada manualmente), InterProScan (domínios e famílias de proteínas via Pfam, SMART, PROSITE, etc.), GO (Ontologia Genética), KEGG (vias metabólicas) e EggNOG (grupos ortólogos). Este é um processo computacionalmente intensivo, mas bem padronizado; num proteoma de 30.000 genes, o InterProScan sozinho pode demorar entre 12 a 24 horas num servidor de 64 núcleos. Sequenciação de Genoma Completo de Novo de Plantas e Animais A CD Genomics fornece anotação funcional como um componente padrão de cada projeto de novo, com resultados organizados em formato GFF3 para navegadores de genoma e tabelas delimitadas por tabulação para análise posterior.

Da Montagem à Publicação — QC, Submissão e Normas

Uma montagem de genoma de novo é um produto científico que deve cumprir padrões de qualidade aceites pela comunidade antes da publicação e submissão a bases de dados públicas. As principais métricas de controlo de qualidade são:

BUSCO completude: Benchmarking de Ortólogos Universais de Cópia Única — a percentagem de genes conservados de um conjunto de genes específico de linhagem (por exemplo, vertebrata_odb10, embryophyta_odb10) recuperados como completos e de cópia única. >95% é de qualidade para publicação; >98% é de qualidade de referência.

Contiguidade (N50)A mediana ponderada pelo comprimento — 50% da montagem está em contigs/scaffolds deste tamanho ou maiores. Para montagens em escala de cromossoma, o N50 do scaffold deve aproximar-se do tamanho de um cromossoma típico para a espécie.

QV (valor de qualidade de consenso)Estimado pela Merqury, que compara as frequências de k-mer entre a montagem e as leituras brutas de Illumina. QV >40 (um erro por 10 kb) é o padrão; QV >50 é de qualidade para publicação.

completude de k-merA fração de k-mers das leituras Illumina presentes na montagem deve exceder 95% para uma montagem completa.

Alinhamento de montagem a referênciaSe existir o genoma de uma espécie relacionada, um alinhamento de genoma completo (MUMmer, minimap2 ou MashMap) verifica a sintenia em grande escala e identifica potenciais erros de montagem.

O Projeto BioGenome da Terra (EBP) recomenda os seguintes padrões mínimos de montagem para genomas eucariotos: contig N50 ≥ 1 Mb, scaffold N50 ≥ 10 Mb (anexação à escala de cromossomas), completude BUSCO ≥ 90% e QV de consenso ≥ 30. Genomas de qualidade de referência aceites pelo NCBI RefSeq são submetidos a padrões mais rigorosos: contig N50 ≥ 10 Mb (ou à escala de braço de cromossoma), BUSCO ≥ 95%, QV ≥ 40 e <5% de contaminação. No nível mais alto, montagens T2T — como a gapless de 2024. Gossypium hirsutum O genoma ZM113 (26 cromossomas, 0 lacunas, contig N50 89,27 Mb, BUSCO 99,6%, QV 42,9) — representa o atual padrão de excelência para genomas eucarióticos completos, com cada cromossoma resolvido como uma única sequência contínua de telómero a telómero.

A submissão a bases de dados públicas é o passo final. O NCBI GenBank exige que as montagens passem pelo Foreign Contamination Screen (FCS) — que deteta contaminação por adaptadores, vetores e entre espécies — antes de serem atribuídos números de acesso. O European Nucleotide Archive (ENA) e o DNA Data Bank of Japan (DDBJ) têm pipelines de validação semelhantes. No final de cada projeto, a CD Genomics fornece ficheiros prontos para submissão através do seu Sequenciação do Genoma Completo serviço — incluindo montagem FASTA mascarada, anotação de genes GFF3 e tabelas de anotação funcional — formatado para cumprir os requisitos do NCBI/ENA/DDBJ com resultados de triagem FCS pré-validados.

De Novo Genome Assembly Pipeline: 7-stage vertical workflow from sample collection to NCBI submission with timeline, tools, and deliverables. Figura 3: Pipeline de Montagem de Genoma De Novo — Um fluxo de trabalho vertical em 7 etapas desde a coleta de amostras até a submissão a bases de dados públicas. Etapas: (1) Coleta de Amostras e Extração de DNA (Semana 1-2) → (2) Levantamento do Genoma — Análise de k-mer GenomeScope 2.0 (Semana 2-3) → (3) Sequenciação HiFi + ONT Ultralonga (Semana 3-12) → (4) Preparação e Sequenciação da Biblioteca Hi-C (Semana 8-13) → (5) Montagem e Escoramento — hifiasm + YaHS (Semana 13-16) → (6) Anotação do Genoma — RepeatModeler2/EDTA + BRAKER3 + InterProScan (Semana 16-20) → (7) QC e Submissão ao NCBI/ENA/DDBJ — BUSCO, Merqury, FCS (Semana 20-24). Cada etapa anotada com ferramentas chave, duração estimada e entregáveis principais.

Considerações Práticas para Projetos De Novo

DNA — Tudo Começa Aqui

A qualidade da montagem de novo é limitada pela qualidade do DNA. Para PacBio HiFi, são necessários ≥5-15 µg de DNA HMW com fragmentos ≥30 kb; o Femto Pulse ou PFGE é utilizado para verificar a distribuição do tamanho dos fragmentos antes da preparação da biblioteca. Para sequenciação ultralonga da ONT, são necessários ≥10 µg de DNA com um N50 ≥50 kb — idealmente ≥100 kb —; recomenda-se o kit Circulomics Nanobind ou um protocolo modificado de fenol-clorofórmio para extração. O DNA de um único indivíduo é fortemente preferido para a montagem de novo; a combinação de múltiplos indivíduos introduz heterozigose artificial que degrada a continuidade da montagem e a resolução do haplótipo.

Para organismos onde a quantidade de tecido é limitante — pequenos invertebrados, embriões, espécimes de herbário, amostras de museu — Sequenciação do Genoma Completo Os fluxos de trabalho de baixo input na CD Genomics podem gerar bibliotecas HiFi a partir de apenas 500 ng de DNA, embora a continuidade da montagem seja reduzida em comparação com os protocolos de alto input.

Cronograma de Planeamento do Projeto

Um projeto típico de genoma de novo para um organismo não modelo de 1-2 Gb segue este cronograma:

Semana 1-2: Coleta de amostras, extração de DNA, controlo de qualidade, sequenciação de levantamento do genoma

Semana 2-3Análise de k-mer do GenomeScope, finalizar estratégia de sequenciação

Semana 3-8Preparação de biblioteca e sequenciação PacBio HiFi (30-60×)

Semana 3-12Preparação e sequenciação de bibliotecas ultralong ONT (15-20×)

Semana 8-13Preparação e sequenciação da biblioteca Hi-C (100×)

Semana 13-16: Montagem (hifiasm), andaimes (YaHS), polimento (NextPolish), QC (BUSCO, Merqury)

Semana 16-20: Anotação (RepeatMasker → BRAKER3 → InterProScan)

Semana 20-24: Curadoria manual, geração de figuras, submissão ao NCBI

Total: 4-6 meses desde a amostra até ao genoma de referência submetido ao NCBI.

Para uma visão mais ampla de como o sequenciamento de novo de plantas e animais se encaixa na paisagem mais ampla do WGS — desde genomas bacterianos até re-sequenciamento populacional em grande escala — consulte o nosso Hub de Serviços de Sequenciamento de Genoma CompletoPara a montagem de novo em escala bacteriana, que segue um fluxo de trabalho distinto adaptado a genomas procarióticos pequenos (3-7 Mb), veja o nosso Guia de Sequenciação do Genoma Completo de BactériasPara projetos que requerem exclusivamente abordagens de leitura longa, os Serviços de Sequenciação de Leitura Longa da CD Genomics oferecem plataformas PacBio e ONT para aplicações específicas. Para um guia abrangente sobre sequenciação de leitura longa em todas as aplicações — desde a deteção de variantes estruturais até a sequenciação de transcritos completos e epigenética — consulte o nosso Serviços de Sequenciamento de Longa Leitura para Cada Aplicação.

Perguntas Frequentes

O que é a montagem de genoma de novo e quando é necessária?

A montagem de genoma de novo reconstrói uma sequência de genoma completa a partir de leituras de sequenciamento sobrepostas, sem um modelo de referência. É necessária quando não existe um genoma de referência de alta qualidade para a espécie — que é o caso da vasta maioria das plantas e animais na Terra. Se um genoma de referência estreitamente relacionado estiver disponível, a montagem guiada por referência ou a re-sequenciação podem ser mais rápidas e baratas.

Qual é o custo do sequenciamento de genoma de novo para um genoma de planta ou animal?

Os custos aumentam com o tamanho e a complexidade do genoma. Um genoma diploide de 500 Mb a escala de cromossoma custa aproximadamente 5.000-10.000 dólares. Um genoma de 1-2 Gb com qualidade T2T custa 10.000-20.000 dólares. Genomas de plantas poliploides grandes (5-16 Gb) podem custar 20.000-35.000 dólares. Estas estimativas incluem sequenciação, montagem, scaffolding e anotação básica.

Por que é recomendado um inquérito genómico antes da sequenciação de novo completa?

Um inquérito genómico de $200-500 (análise de k-mer de Illumina superficial + GenomeScope) estima o tamanho do genoma, a heterozigosidade, o conteúdo de repetições e a ploidia. Esta informação determina quanto sequenciamento é necessário, quais plataformas são ótimas e se são necessárias estratégias especializadas de faseamento ou montagem conscientes da poliploidia — prevenindo sub- ou sobre-sequenciamento dispendioso.

Qual é a diferença entre montagem em escala de cromossoma e montagem T2T?

Uma montagem em escala de cromossoma tem contigs ordenados e orientados em cromossomas, mas pode conter lacunas em regiões repetitivas (centromeros, arranjos de rDNA). Uma montagem T2T (telómero a telómero) é sem lacunas — cada cromossoma é uma única sequência contínua do telómero ao telómero, incluindo regiões anteriormente intratáveis como os centromeros. T2T requer leituras ultralongas da ONT, além de HiFi e Hi-C.

Preciso de dados Hi-C para o meu genoma de novo?

Para genomas de referência de qualidade de publicação, sim. O Hi-C fornece a informação de ligação de longo alcance necessária para ordenar e orientar contigs em cromossomas completos. Sem o Hi-C, uma montagem HiFi de um genoma de 1 Gb pode produzir entre 500 a 2.000 contigs; com a scaffolding do Hi-C, tipicamente mais de 90% da montagem é ancorada em scaffolds de escala cromossómica que correspondem ao cariótipo esperado.

Que entrada de ADN é necessária para o sequenciamento de novo de plantas e animais?

Para PacBio HiFi: ≥5 µg de ADN HMW, fragmentos ≥30 kb. Para ONT ultralong: ≥10 µg de ADN, N50 ≥50 kb (idealmente ≥100 kb). Para Hi-C: ≥1-2 µg de ADN entrelaçado. O ADN deve ser de um único indivíduo para montagem de novo; amostras agrupadas introduzem heterozigose artificial.

Quanto tempo leva um projeto de genoma de novo desde a amostra até à montagem completa?

Um cronograma típico de projeto é de 4 a 6 meses: preparação da amostra (1-2 semanas), levantamento do genoma (2-3 semanas), sequenciação (6-12 semanas dependendo dos tipos de dados), montagem e scaffolding (3-4 semanas), anotação (4 semanas) e curadoria/submissão (4 semanas). Cronogramas acelerados estão disponíveis para tipos de dados individuais.

Quais são os entregáveis bioinformáticos incluídos em um projeto de sequenciamento de novo da CD Genomics?

Entregáveis padrão: dados de sequenciação bruta (FASTQ), relatório de QC, genoma montado (FASTA), métricas de QC BUSCO/QV/k-mer, anotação de repetições (GFF), predição de genes (GFF3) e anotação funcional (GO, KEGG, InterProScan, Swiss-Prot, NR). Estão incluídos ficheiros prontos para publicação formatados para submissão ao NCBI/ENA/DDBJ.

Referências:

Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Montagem de novo resolvida por haplótipos usando gráficos de montagem faseados com hifiasm. Nature Methods. 2021;18(2):170-175. doi:10.1038/s41592-020-01056-5
Obinu L, Dettori G, Lemay MA, et al. Avaliação de ferramentas Hi-C para a construção de scaffolds de genomas vegetais obtidos a partir de leituras PacBio HiFi e ONT. Fronteiras em Bioinformática. 2024;4:1462923. doi:10.3389/fbinf.2024.1462923
Ranallo-Benavidez TR, Jaron KS, Schatz MC. GenomeScope 2.0 e Smudgeplot para perfilagem sem referência de genomas poliploides. Comunicações da Natureza. 2020;11(1):1432. doi:10.1038/s41467-020-14998-3
Gabriel L, Hoff KJ, Bruna T, et al. TSEBRA: seletor de transcritos para o BRAKER. BMC Bioinformática. 2021;22(1):566. doi:10.1186/s12859-021-04482-0
Rhie A, Walenz BP, Koren S, Phillippy AM. Merqury: avaliação de qualidade, completude e fase sem referência para montagens genómicas. Biologia Genómica. 2020;21(1):245. doi:10.1186/s13059-020-02134-9
Zhou C, McCarthy SA, Durbin R. YaHS: mais uma ferramenta de scaffolding Hi-C. Bioinformática. 2023;39(1):btac808. doi:10.1093/bioinformatics/btac808
Manni M, Berkeley MR, Seppey M, Simao FA, Zdobnov EM. Atualização do BUSCO: Fluxos de Trabalho Novos e Simplificados, juntamente com uma Cobertura Filogenética Mais Ampla e Profunda para a Avaliação de Genomas Eucarióticos, Procarióticos e Virais. Biologia Molecular e Evolução. 2021;38(10):4647-4654. doi:10.1093/molbev/msab199
Ou S, Su W, Liao Y, et al. Avaliação de métodos de anotação de elementos transponíveis para a criação de um pipeline abrangente e simplificado. Biologia do Genoma. 2019;20(1):275. doi:10.1186/s13059-019-1905-y

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.