Escolhendo os Entregáveis T2T Certos: Saídas de Montagem, Polimento, Fases e Formatos de Dados (RUO)
Introdução
"O formato de entregável errado pode adicionar semanas de reformatação — escolha sabiamente desde o início." Para projetos de genoma pequeno (<500 Mb) que buscam montagens telómero-a-telómero (T2T)O contrato de entregáveis que definir no primeiro dia determinará se a análise subsequente começa amanhã — ou em três semanas após conversões ad-hoc. Este guia prático explica como escolher a mistura certa de saídas de montagem, polimento, faseamento e formatos de dados para que os seus entregáveis sejam imediatamente utilizáveis, auditáveis e prontos para arquivo.
Se precisar de um resumo conciso sobre o que o T2T envolve (telómeros, centrómeros e repetições complicadas) e por que a completude altera a biologia a jusante, comece com o contexto da série: Sequenciação de telómero a telómero explicado. Aqui, focamo-nos nas decisões que importam para os formatos de dados de fase de montagem de entregáveis T2T em contextos RUO: contigs versus saídas a nível de cromossoma (e T2T); alvos de polimento a nível de base que atendem às expectativas de pesquisa e publicação; estratégias de fase (trio, Hi-C, Strand-seq) para genomas pequenos.
O que você vai obter deste artigo:
- Portões de aceitação claros e acionáveis para entregas T2T adaptados a genomas pequenos (<500 Mb), incluindo limiares de QV do Merqury, metas de completude do BUSCO e verificações do QUAST, com orientações sobre interpretação e armadilhas comuns.
- Orientações práticas de pipeline e esqueletos de comandos para hifiasm e Verkko em cenários de trio, Hi-C e Strand-seq, além de sequências de polimento recomendadas e etapas de avaliação Merqury/BUSCO/QUAST.
- Um pacote de entregáveis recomendado e um layout de diretório/manifeste que minimiza a reformatação a montante: FASTA por haplótipo (+.fai), GFA/GFA.gz comprimido, AGP, FASTA/GFF3 com máscara suave onde relevante, índices, somas de verificação e um README de proveniência.
- Dois exemplos concretos de fluxos de trabalho (um micróbio de 50 Mb e um organismo modelo de 400 Mb) com entradas, saídas e resultados de controlo de qualidade esperados para ajudar a definir decisões sobre computação, cobertura e filtragem.
- Orientações práticas sobre quando entregar saídas gráficas vs. lineares, como validar a completude da fase e um breve micro-exemplo de fornecedor mostrando um padrão de transferência de nível D (T2T completo) para definição de âmbito.
Figura 1 — Montagem diploide resolvida por haplótipos (criada por mim). Legenda: azul = haplótipo A, laranja = haplótipo B; tampões teloméricos nas extremidades; domínios centroméricos; blocos em fase. Esta imagem ilustra porque uma transferência T2T frequentemente inclui FASTA por haplótipo mais um gráfico GFA que retém caminhos alternativos.
Definições de entregáveis principais e expectativas de formato de ficheiro
Na prática, os entregáveis caem num espectro de continuidade: um contig é uma sequência ininterrupta produzida a partir de leituras sobrepostas; um scaffold ordena e orienta contigs usando ligações de longo alcance e pode conter sequências de lacunas (Ns); uma montagem ao nível de cromossomas tem scaffolds ancorados a cromossomas esperados, mas ainda pode conter lacunas; e uma montagem telómero-a-telómero (T2T) é uma sequência ao nível de cromossomas, sem lacunas, de ponta a ponta, que inclui repetições teloméricas canónicas e resolve centrómeros e outras grandes repetições. Visão Geral do T2T do Genome.gov e a literatura sobre montagem sem lacunas (Koren et al., 2024) (ver exemplos em relatórios recentes de T2T em ratos e plantas). Estas distinções são importantes para os resultados, pois algumas análises subsequentes requerem cromossomos lineares e sem lacunas (publicação/benchmarking), enquanto outras beneficiam da informação de ramificação mais rica preservada em um gráfico de montagem.
Para projetos T2T de genoma pequeno, recomendamos empacotar tanto representações lineares como gráficas, para que os consumidores possam escolher a visualização que se adapta ao seu fluxo de trabalho: fornecer arquivos FASTA por haplótipo (hap1.fa, hap2.fa, comprimidos e indexados) como sequências canónicas; incluir o gráfico de montagem em GFA ou GFA.gz para preservar caminhos alternativos e repetições não resolvidas; adicionar um arquivo AGP para documentar as relações entre scaffold e contig e os tamanhos das lacunas para submissões arquivadas; e entregar arquivos de anotação em GFF3 (ou GTF) quando a anotação estrutural estiver incluída. Estes formatos alinham-se com as práticas da comunidade e os requisitos de arquivo (ver o Especificação AGP do NCBI e a especificação GFA mantida pela comunidade).
Figura 2: Pipeline T2T de ponta a ponta para genomas pequenos (<500 Mb). As entradas à esquerda alimentam a construção do gráfico de montagem e os módulos de fase; os passos de polimento, QC e embalagem criam o pacote entregável (FASTA por haplótipo, GFA, AGP, relatórios de QC). A cobertura esperada e os intervalos de QV alvo são mostrados como chamadas para cada tipo de dado.
Finalmente, trate o pacote de ficheiros como uma única entrega: inclua ficheiros de índice (.fai, .gzi onde aplicável), somas de verificação, um README a descrever as versões das ferramentas e parâmetros, e um pacote de QC (Merqury k-mer QV e gráficos de espectros, resumo do BUSCO e um relatório QUAST). A seção seguinte detalha os critérios de aceitação práticos (limiares de QV do Merqury, completude do BUSCO e métricas do QUAST) e como interpretá-los para genomas pequenos.
Merqury QV e como usá-lo para portões de aceitação
A Merqury reporta um valor de qualidade de consenso sem referência (QV) ao comparar k‑mers derivados das suas leituras brutas com k‑mers observados na montagem e converter a taxa de erro inferida em uma pontuação na escala Phred (QV = −10·log10(taxa de erro)). Para uma referência prática e detalhes do método, veja Formenti et al., Merfin/Merqury (2022), que descreve o fluxo de trabalho k-mer (meryl → merqury) e a interpretação dos resultados, incluindo gráficos de espectros que revelam colapsos, duplicações e conteúdo ausente.
Limiares práticos para projetos T2T de genoma pequeno
- Usar QV ≥ 40 como uma porta de aceitação de grau de pesquisa conservadora (≈1 erro por 10.000 pb); tente alcançar QV ≥ 50 ao embalar montagens para publicação ou avaliação de métodos (≈1 erro por 100.000 bp). Muitos projetos recentes baseados em HiFi‑T2T relatam QV50+ após polimento, mas os alvos de QV devem ser ponderados juntamente com métricas BUSCO e estruturais em vez de serem tratados isoladamente. Notas práticas de procedimento e exemplos de esqueletos de comandos Merqury estão resumidos no tutorial de QC de Montagens do Projeto Galaxy (2025) — veja Projeto Galáxia, QC de Montagem (2025).
Interpretar o QV em contexto e advertências comuns
QV é mais informativo quando combinado com a completude de k‑mer e gráficos spectra‑cn/asm: um QV elevado com baixa completude de k‑mer indica sequência em falta; um QV elevado com espectros anormais pode sinalizar repetições colapsadas ou duplicações falsas. Para genomas pequenos e heterozigóticos, k‑mers parentais (trio) ou um conjunto de k‑mer de alta precisão melhora a fiabilidade do QV. Deve sempre reportar o QV do Merqury juntamente com os resumos do BUSCO (escolha da linhagem anotada) e QUAST/QUAST‑LG; ligue o leitor aos critérios de aceitação de QC detalhados na seção de métricas de QC para limiares acionáveis e passos de resolução de problemas de exemplo (ver /t2t-assembly-qc-metrics.html).
Estratégia de polimento e escolhas práticas de ferramentas
Para um entregável T2T de genoma pequeno, trate a polimento como um pipeline dependente do tipo de dados e baseado em evidências, em vez de um passo único para todos. Para montagens PacBio HiFi, comece com o polimento recomendado pelo montador (fluxos de trabalho Arrow/ccs ou consenso interno do hifiasm), e depois aplique uma passagem consciente de repetições, como NextPolish2 para corrigir homopolímeros residuais e erros associados à repetição; avaliar cada ronda com verificações de k-mer e relatar o QV do Merqury após cada fase principal de polimento.Formenti et al., Merfin/Merqury, 2022; NextPolish2, 2024). Um esqueleto comum de HiFi é: alinhar leituras HiFi → executar Arrow/consenso → NextPolish2 → polimento opcional de leituras curtas (Pilon ou Polypolish) se existir alta cobertura de Illumina. Exemplos de comandos (conceituais):
- Alinhar: pbmm2 align --sort hifi.bam assembly.fa > aligned.bam
- NextPolish2: nextpolish2 --reads hifi.fq.gz --assembly assembly.fa --out polished.fa
Para montagens ONT, um pipeline eficaz continua a ser Racon (1–3 iterações) → Medaka (modelo de rede neural ajustado ao basecaller) → polimento de leituras curtas; os avanços recentes da ONT (Dorado/APK) podem levar montagens híbridas Verkko/Medaka a Q50 na prática, mas estas dependem da paridade entre química/basecaller e de uma parametrização cuidadosa.Anúncio da Oxford Nanopore, 2024). Esqueleto típico de ONT:
- Racon: minimap2 -x map-ont reads.fq.gz assembly.fa | racon -m 8 -x -6 -g -8 -t 32 reads.fq.gz - assembly.fa > racon1.fa
- Medaka: medaka_consensus -i reads.fq.gz -d raconN.fa -o medaka_out -t 32 -m r941_min_high_g303
Avaliação e cautela
Use o Merqury/Merfin para reportar a QV e a completude k-mer após cada etapa de polimento e evite o polimento iterativo cego: o polimento excessivo pode introduzir viés de referência ou colapsar haplótipos verdadeiros em regiões heterozigóticas. Para genomas pequenos, pare quando os ganhos de QV do Merqury se estabilizarem e as métricas BUSCO/QUAST não melhorarem mais; registe as versões das ferramentas, parâmetros e o k utilizado para o Merqury no README para que os utilizadores a montante possam reproduzir os cálculos do portão de aceitação.
Recomendações por Caso de Uso (Autoridade)
Para genomas pequenos (<500 Mb) que visam entregas completas de T2T (trio + Hi-C + integração de Strand-seq), embale as saídas de forma que as equipas a montante — anotadores, grupos de genómica comparativa e avaliadores — possam operar sem necessidade de reformatação. Abaixo estão as portas de aceitação prescritivas, uma lista de verificação de embalagem para transferência e dois exemplos concretos de fluxos de trabalho.
Portões de aceitação e limiares de QC
Siga uma política de aceitação multi-métrica em vez de uma regra de aprovação/reprovação de um único número. Para os entregáveis de pequeno genoma T2T, adote estes critérios como mínimos, com limites mais rigorosos para publicação ou avaliação de métodos:
- Precisão base (Merqury QV): objetivo QV ≥ 55; QV mínimo ≥ 50 para publicação; QV ≥ 40 aceitável para investigação de nível inferior. Relatório QV com a completude de k-mer e gráficos de espectros para mostrar conteúdo em falta ou duplicado. Veja os critérios de QC detalhados em Métricas de QC de Montagem T2T: Completude, Precisão e Como Avaliar Resultados.
- Completude do gene (BUSCO): Completo (C) ≥ 98% preferido; Cópia única (C:S) ≥ 95%; Duplicado (D) < 2%Escolha o conjunto de dados de linhagem mais específico para o táxon (por exemplo, fungi_odb10, arthropoda_odb10) e reporte a tabela BUSCO completa.
- Correcção estrutural (QUAST/QUAST‑LG): reportar NG50/NGA50, desassemblagens, fração do genoma e métricas sensíveis ao referência quando existe uma referência próxima. As desassemblagens devem ser investigadas e resolvidas para contigs que abrangem centrómeros ou telómeros.
- Completude de faseamento: Para faseamento baseado em trios, relatar tamanhos de montagem por haplótipo, percentagem de sequência atribuída a haplótipos e taxa de erro de troca onde a verdade parental está disponível. Para faseamento Hi-C/Strand-seq, incluir validação do mapa de contato e resumos de orientação do Strand-seq.
- Proveniência e integridade: cada ficheiro deve ter um checksum (SHA256 preferido), um índice .fai para FASTA e um manifesto (JSON/YAML) que registe as versões das ferramentas, parâmetros e um resumo da cobertura.
Ao anotar os metadados da amostra e as restrições de extração, consulte a orientação sobre preparação de amostras em Requisitos de Amostras e DNA para Sequenciação T2T: Como Evitar o Fracasso do Projeto.
Convenções de nomeação explícitas e um manifesto de verificação reduzem a ambiguidade a montante; inclua fragmentos de manifesto de exemplo e um README mínimo que documente os critérios de aceitação utilizados para este projeto.
Exemplo de fluxo de trabalho — microbio de 50 Mb
Entradas assumidas: PacBio HiFi 30–50× por haplótipo, 30× ONT ultra-longo (opcional), dados parentais não disponíveis, Hi-C opcional para a montagem de grandes plasmídeos.
- Assemblagem: hifiasm em modo Hi‑C (se Hi‑C fornecido) ou hifiasm padrão para apenas HiFi:
hifiasm -o asm -t 48 reads.hifi.fq.gz. - Polimento: consenso interno de hifiasm → NextPolish2 com leituras HiFi; avaliar deslocamentos de k-mer após cada ronda com Merqury.
- Metas de QC: esperar QV 50+ após polimento; BUSCO (fungos/arquéias/outro linhagem) > 98%.
- Entregáveis: FASTA haploide em ficheiro único (se o organismo for efetivamente haploide) ou FASTA de haplótipos duplos se a heterozigose for resolvida; assembly.gfa.gz; espectros merqury e relatórios BUSCO; manifesto e README.
Saídas esperadas: hap1.fa.gz (50 Mb), assembly.gfa.gz (gráfico pequeno), merqury_summary.txt (QV ~50), resumo curto do busco (C >98%).
Exemplo de fluxo de trabalho — modelo de 400 Mb (trio + Hi-C + Strand-seq)
Entradas assumidas: PacBio HiFi 30–40× por haplótipo, ONT ultra-longo 20×, Illumina parental para agrupamento de trios, pares de leituras Hi-C 100M, bibliotecas Strand-seq (10–20 células).
- Pré-processamento: construir bases de dados de k-mer parentais (yak) e executar trio-binning hifiasm para particionar leituras.
- Assembleia:
hifiasm -o asm -t 96 --trio maternal.yak paternal.yak hifi/*.fq.gzdepois integre o Hi-C para a construção de andaimes; use o Verkko para regiões híbridas onde o ONT ultra-longo fornece resolução. - Validação de fases: calcular a taxa de erro de comutação em relação à verdade parental; usar Strand-seq para resolver orientações em torno dos centrómeros e validar inversões.
- Polimento: NextPolish2 em montagens de haplótipos, seguido de passes direcionados de Medaka em regiões resolvidas por ONT; validar com Merqury até que os ganhos de QV se estabilizem (objetivo QV ≥ 55).
- Entregáveis: hap1.fa.gz, hap2.fa.gz, assembly.gfa.gz (grafo que preserva caminhos alternativos), scaffolds.agp, espectros merqury, relatórios BUSCO (C ≥ 98%), relatório QUAST NGA50 e de má montagem, manifesto completo e proveniência.
Saídas esperadas: dois FASTAs de haplótipos (~200 Mb cada), assembly.gfa.gz (gráfico grande com caminhos de fase), merqury_summary (QV 55+), BUSCO (C ≥98%).
Exemplo micro de fornecedor neutro (colocação permitida)
CD Genomics pode aceitar um pacote de entrada padrão de nível D (leituras HiFi, Illumina parental para agrupamento de trios, FASTQs Hi‑C e bibliotecas Strand‑seq). Para um eucariota pequeno típico, será realizada uma montagem hifiasm agrupada em trio, integrando Hi‑C para a estruturação dos cromossomas e utilizando Strand‑seq para confirmar a orientação e a fase em larga escala. Os entregáveis são produzidos de acordo com a lista de verificação acima: FASTA por haplótipo (gzip + .fai), um gráfico de montagem comprimido (GFA/GFA.gz), AGP e um pacote de QC (espectros Merqury, BUSCO, QUAST) acompanhado de um manifesto e README. Confirme a nomenclatura específica dos arquivos e os limites métricos durante a chamada de definição.
Nota de micro-exemplo: descrição factual apenas; sem superlativos de desempenho.
Figura 3. À esquerda: gráfico de montagem GFA simplificado mostrando nós e caminhos ramificados que expõem repetições e rotas haplotípicas alternadas (útil para diagnósticos estruturais e curadoria manual). À direita: haplótipos lineares resolvidos em FASTAs (hap1, hap2) mostrados como barras cromossómicas para anotação e submissão de arquivo. Entregar ambos: GFA/GFA.gz comprimido mais FASTA por haplótipo (+.fai).
Conclusão — Tome a sua decisão uma vez, use-a em todo o lado.
Uma política robusta de entrega T2T para genomas pequenos poupa semanas de retrabalho a montante. Lista de verificação de decisões resumida:
- Escolha o método de fase cedo (trio preferido para genomas pequenos); comprometa-se com trio/Hi-C/Strand-seq se estiver a seguir um T2T completo.
- Defina os limites de aceitação de QV e BUSCO antes da montagem (objetivo QV ≥ 55; BUSCO C ≥ 98%).
- Requerer tanto FASTA linear por haplótipo como gráfico GFA comprimido no pacote final, além de AGP e FASTA suavemente mascarado pronto para anotação quando aplicável.
- Entregue um manifesto legível por máquina com somas de verificação SHA256, README e proveniência da ferramenta.
Se quiser definir um entregável T2T de nível D para um pequeno genoma, entre em contacto connosco para definir os inputs, portas, prazos e preços.
Referências:
- Formenti, G. et al., Métodos k-mer Merfin/Merqury (2022). Visão geral do Merqury/Merfin.
- Cheng, H. et al., algoritmo hifiasm e modos (2022). artigo Hi-C/trio hifiasm.
- Rautiainen, M. et al., Assemblador híbrido Verkko (2023). Pesquisa do Genoma Verkko.
- Projeto BioGenome da Terra, padrões de montagem e orientações (2022). Resumo dos padrões EBP.
- Guia do utilizador BUSCO e recomendações de benchmarking. documentação BUSCO.
- Notas de visualização do Bandage / BandageNG e GFA. Bandagem GitHub.