Bioinformática para eccDNA: Algoritmos de Detecção, Filtragem de Artefatos e Normas de Relato

Introdução

O DNA circular cria dores de cabeça lineares. Alinhadores de leituras curtas, como o BWA-MEM, foram projetados para genomas lineares, portanto, quando uma leitura abrange a junção cabeça-a-cauda de um DNA circular extracromossómico (eccDNA), muitas vezes é mapeada como um alinhamento dividido com clipes suaves ou como um par com uma orientação inesperada. Se tratar esses mapeamentos como variantes ordinárias, perderá círculos reais ou inflacionará artefatos. Este guia prático ajuda as equipas de bioinformática a passar de ficheiros FASTQ brutos para um conjunto de chamadas de eccDNA defensável e reproduzível.

Se precisar de contexto de laboratório húmido para os dados que alimentam estas pipelines, consulte o guia prático complementar, Fluxo de Trabalho Experimental para Sequenciação de eccDNA: Enriquecimento, Preparação de Biblioteca e Armadilhas Comuns, que detalha como as estratégias de enriquecimento e de biblioteca moldam as evidências subsequentes.

Porque os alinhadores lineares têm dificuldades com a circularidade numa frase: o seeding do índice FM e a extensão local em ferramentas como o BWA-MEM assumem uma referência linear contínua, de modo que as leituras que atravessam a junção circular aparecem como segmentos divididos ou pares discordantes; sem um pós-processamento explícito, a "costura" do círculo é invisível. Revisões e artigos metodológicos documentaram a necessidade de um manuseio especializado pós-alinhamento e/ou realinhamento consciente da junção para análise de eccDNA e ecDNA, incluindo a interação entre leituras divididas, pares discordantes e sinais de número de cópias em regiões amplificadas, de acordo com a literatura revisada por pares, como a visão geral da eLife em 2022 e os artigos AA/ecDNA de 2019-2024 [Zhao 2022, eLife: ferramentas de deteção de eccDNA e limitações; Deshpande 2019: Reconstrução de amplificações focais com AmpliconArchitect].

Estratégias de deteção

As evidências de leituras curtas dependem de leituras que atravessam junções, enquanto ecDNAs que contêm oncogenes em WGS adicione pistas de número de cópia e gráfico estrutural. Leituras longas podem atravessar diretamente junções e esclarecer rearranjos complexos. Abaixo estão as estratégias principais e como implementá-las na prática.

Leituras divididas: localização de junções

As leituras divididas são a sua evidência de leitura curta com maior confiança. Uma única leitura mapeia parcialmente para um lado do círculo putativo e parcialmente para o outro, produzindo uma orientação de cabeça a cauda através da junção. Nos BAMs, verá clipes suaves (S) no CIGAR e alinhamentos suplementares (tags SA). Chamadores especializados realinham segmentos com clipes suaves contra um gráfico de junção para aumentar a sensibilidade.

Pontos de partida recomendados (Illumina PE150, hg38/mm39): alinhar com BWA‑MEM (0.7.x), reter alinhamentos suplementares, marcar duplicados (Picard ou samblaster), extrair leituras divididas e executar um chamador consciente de junções como o Circle‑Map em modo "realinhamento". Para relatórios, começar com ≥3 leituras divididas e ajustar com base no enriquecimento da biblioteca e repetições.

Exemplos de trechos:

# Mapping and duplicate marking (short-read)
bwa mem -t 16 -M -R '@RG\tID:sample\tSM:sample' hg38.fa R1.fq.gz R2.fq.gz | \
  samblaster --markdups | samtools view -bS - > sample.bam
samtools sort -@ 8 -o sample.sorted.bam sample.bam
samtools index sample.sorted.bam

# Circle-Map (realign split reads)
circle-map Realign -i sample.sorted.bam -r hg38.fa -o circlemap_realign.bed

A realinhamento probabilístico do Circle-Map melhora a recuperação de verdadeiros junções em comparação com a análise ingênua de soft-clips, conforme relatado em pesquisas metodológicas e notas de ferramentas nas Briefings in Bioinformatics (2024) e em artigos relacionados [Fang 2024: visão geral do eccDNA‑pipe e eficácia da ferramentaOs limiares são frequentemente ajustados ao tipo de dados; bibliotecas enriquecidas normalmente permitem um suporte mais baixo do que o WGS não enriquecido.

Pares discordantes: evidência de apoio e agrupamento

Os pares discordantes apresentam uma orientação voltada para fora ou tamanhos de inserção anormalmente curtos/largos em torno da junção. Sozinhos, raramente são definitivos, mas, quando combinados com leituras divididas, aumentam a confiança e ajudam a agrupar os pontos de quebra. Calcule estatísticas de tamanho de inserção específicas da amostra, sinalize pares além dos intervalos esperados perto das junções e agrupe-os dentro de janelas de 300–600 bp que flanqueiam os pontos de quebra das leituras divididas. Como regra geral, exija ≥2 pares discordantes além do suporte das leituras divididas quando estiver perto de repetições.

Sinais de cobertura e número de cópias (WGS ecDNA)

Os ecDNAs grandes no câncer frequentemente apresentam um ganho extremo de cópias e gráficos de junção complexos. Reconstrução de sementes a partir de chamadas de CNV e refinar a estrutura com evidências de pontos de ruptura:

  1. Chame CNVs em WGS com CNVkit ou Control‑FREEC; semeie amplicões com CN ≥4,5–5 e comprimento ≥10 kb.
  2. Execute o AmpliconArchitect (AA) para reconstruir gráficos de amplicões.
  3. Classifique estruturas com o AmpliconClassifier (AC) em ecDNA, BFB, linear ou complexo. Descrições de métodos autoritativos e exemplos estão disponíveis no artigo original da AA e na documentação do AmpliconSuite [Deshpande 2019: AA reconstrói ampliações focaisGuia do AmpliconSuite: Documentação AA/AC].

Ferramentas comuns e onde se encaixam

  • Circle-Map (leituras curtas, deteção de junções): Sensível a leituras divididas que atravessam junções através de realinhamento probabilístico. Melhor para bibliotecas de leituras curtas enriquecidas e deteção de junções em WGS [Circle-Map GitHub: repositório e documentação].
  • AmpliconArchitect + AmpliconClassifier (estrutura de amplicões WGS): Reconstrói e classifica ampliações focais; indispensável para a interpretação de ecDNA em oncologia WGS [Deshpande 2019 e guia do AmpliconSuite ligado acima].
  • ECCsplorer (leituras curtas, múltiplos modos): Combina mapeamento e agrupamento; amplamente utilizado em organismos não-modelo e plantas onde as referências variam em qualidade [Mann 2022: ECCsplorer aplicado em plantas/não-modelos].
  • nf‑core/circdna (pipeline): Um pipeline Nextflow reprodutível que unifica várias ramificações (Circle‑Map, Circle_finder, CIRCexplorer2, AA, Unicycler+minimap2) com QC e saídas padronizadas [nf‑core: documentação do pipeline circDNA].

Diagram of split reads and discordant read pairs mapping across an eccDNA junction on a linear reference.Figura 1. Sinais de deteção para eccDNA: leituras divididas abrangem a junção cabeça‑a‑cauda, enquanto leituras pareadas discordantes mapeiam com orientação ou tamanho de inserção anormais de cada lado da quebra.

filtragem de artefatos de eccDNA

O controlo de artefactos é onde a bioinformática de eccDNA constrói confiança ou a quebra. Utilize a seguinte estratégia priorizada e adapte os limiares ao seu tipo de biblioteca e espécie.

Comece com QC de base e mapeamento: realize o corte de adaptadores/qualidade (Trim Galore! ou fastp), mapeie com BWA‑MEM para leituras curtas e minimap2 para leituras longas, marque duplicados (Picard ou samblaster) e mantenha alinhamentos suplementares. Para leituras que suportam junções, defina um limite de reporte como a mediana de MAPQ ≥20–30.

Limiares mínimos de evidência para leituras curtas: reportar quando ≥3 leituras divididas OU (≥2 leituras divididas + ≥2 pares discordantes) E a variação da profundidade local ≥3 sobre flancos de ±5–10 kb. Aumentar os limiares perto de regiões de baixa complexidade e repetições simples. Estes intervalos alinham-se com os padrões de uso em estudos recentes e notas de método para chamadores centrados em junções [dos Santos 2023; Wang 2024]. exemplares de limiar na literatura recente, dos Santos 2023 utilização].

Repetições e microsatélites: calcular a sobreposição com as anotações do RepeatMasker e sinalizar chamadas com sobreposição de repetição simples >50%. Manter uma chamada de alta sobreposição apenas se os reads de divisão de junção forem únicos (não multimapeados) e abundantes, e se os pares discordantes se agruparem simetricamente em torno da junção. As revisões destacam as repetições como um importante fator de confusão e recomendam uma interpretação cautelosa [Gadgil 2024; revisão de Wang 2024: interpretação de eccDNA ciente de repetições, revisão recente dos métodos de eccDNA].

DNA mitocondrial (chrM) e NUMTs: por defeito, exclua círculos chrM a menos que o seu estudo tenha como alvo explícito o eccDNA mitocondrial. Ao relatar mt-eccDNA, exija evidências mais robustas (por exemplo, ≥5 leituras divididas, confirmação de biblioteca independente) e rotule as chamadas como mitocondriais na saída. Interseccione as chamadas com uma faixa NUMT curada (correspondente à construção) e sinalize sobreposições; considere a exclusão a menos que evidências fortes de junção indiquem círculos de origem nuclear. Documente a fonte/versão NUMT nos metadados. Para depleção a nível de laboratório húmido e contexto, consulte abordagens de depleção baseadas em enzimas descritas em protocolos abertos [Lin 2024: depleção mitocondrial em Circle‑seq]. Para mais informações sobre a interpretação em contextos de stress ou apoptose, veja "São os eccDNAs Produtos Apoptóticos? Atividade Imunostimulante Inata e Interpretação Experimental."

Quimeras e duplicados de bibliotecas: verificar a cobertura uniforme dentro do círculo putativo—artefatos de ligadura frequentemente carecem de cobertura interna e falham em se reproduzir em preparações de biblioteca independentes. Remover duplicados de PCR e, quando etiquetados com UMI, exigir suporte de ≥2 moléculas únicas.

Codifique regras de decisão para manter o seu pipeline reproduzível:

If chr == 'chrM':
  require support_split >= 5 and replicate_confirmation == True
  annotate flag = 'mitochondrial'
else:
  require (support_split >= 3) or (support_split >= 2 and support_discordant >= 2)
  if repeat_overlap_pct > 50 and not junction_unique:
    flag = 'repeat_high'; consider exclude unless long-read validation
  if mapq_median < 20:
    flag = 'low_mapq'; exclude
  if size < 3000 and sample_state == 'stressed/apoptotic':
    flag = 'apoptosis_risk'; require orthogonal validation

Normas de reporte

Ainda não existe um padrão comunitário único para os outputs de eccDNA, mas as equipas podem ainda assim alcançar entregas reproduzíveis e legíveis por máquina. O esquema abaixo funciona em chamadas de junção Circle-Map/ECCsplorer e estruturas de amplicão AA/AC, e está alinhado com pipelines reproduzíveis como nf-core/circdna [nf-core: documentação e saídas do circDNA].

Tabela de chamadas recomendada: BED com colunas expandidas

#chrom  start   end     name    strand  support_split  support_discordant  circle_score  local_depth_fc  mapq_median  repeat_overlap_pct  numt_overlap  tool  consensus_tools  flags  notes
chr7    55012000 55018543  eccDNA_0001  +      6               4                  42.1          5.3            48              12.5              False        Circle-Map  Circle-Map;ECCsplorer  .     junction validated in IGV
chr12   34500123 34504555  eccDNA_0002  -      3               2                  28.7          3.1            35              57.2              False        Circle-Map  Circle-Map            repeat_high  near microsatellite; keep pending long-read

Metadados mínimos (JSON/YAML)

sample_id: PDX123_T1
species: human
reference_build: GRCh38
library_type: Circle-seq
read_length: PE150
aligned_depth: 85e6_pairs
aligner: bwa-mem/0.7.17
caller: circle-map/1.1.4
pipeline: nf-core/circdna/1.0.4 (docker sha256:...)
deduplication: samblaster (UMI: false)
filters:
  min_split: 3
  min_discordant: 2
  mapq_median: 20
  repeat_overlap_pct: 50
  mito_policy: exclude
visualizations:
  igv_snapshots: [igv/PXD123_T1_eccDNA_0001.png]
  circos_config: plots/PXD123_T1_circos.conf
notes: thresholds adjusted upward for simple repeats

Tabela de resumo de QC (por amostra)

sample_id,raw_reads,aligned_reads,dedup_rate,insert_size_median,mean_depth,calls_pre_filter,calls_post_filter
PDX123_T1,160000000,142300000,0.19,385,32.8,1248,346

Orientação de visualização e referências internas: use o IGV para verificar junções e cobertura interna para um subconjunto de chamadas por amostra. Para WGS ecDNA, a visualização de Ciclo do AmpliconArchitect ajuda a interpretar o contexto estrutural e apoia a classificação com o AmpliconClassifier [Deshpande 2019: Visão do ciclo AA na reconstrução de ecDNAGráficos de densidade em escala de cromossoma (Circos) resumem rapidamente as distribuições de hotspots e as diferenças entre amostras. Para exemplos de visualização orientados para a oncologia, veja eccDNA no Câncer: Amplificação de Genes, Regulação de Oncogenes e Aplicações de Pesquisa. Para limites numéricos de QC e comparações entre fornecedores, veja Métricas de Qualidade para Sequenciação de eccDNA: Eficiência de Enriquecimento, Fundo e Reproduzibilidade.

Generic schematic of a circular amplicon with rearranged genomic segments and labeled junctions, similar in concept to an AmpliconArchitect cycle view.

  • Figura 2: Esquema do "ciclo" neutro ilustrando segmentos e orientações rearranjados (desenhado por mim). Para saídas e esquemas reais de AA, consulte o artigo de AA e a documentação do AmpliconSuite [Deshpande 2019: Conceito de visualização do ciclo AAGuia do AmpliconSuite: documentação].

Circos plot of human chromosomes with an inner density track showing synthetic eccDNA hotspot distribution.Figura 3: Gráfico de densidade em estilo Circos resumindo os hotspots de eccDNA (gerado por nós abaixo).

De FASTQ a produtos bioinformáticos de eccDNA

Divulgação: CD Genomics é o nosso produto. O seguinte exemplo neutro mostra como um resultado típico de pesquisa se mapeia para os modelos acima, permitindo que as equipas padronizem relatórios internamente sem alterar as conclusões analíticas.

Um entregável típico inclui FASTQs brutos, um BAM/CRAM mapeado com um índice, uma tabela de chamadas de junção (TSV/BED), um documento de métodos/PDF e figuras. Para conformar ao esquema aqui, importe a tabela de chamadas para o formato BED estendido e adicione campos por chamada para contagens de suporte, mudança de cobertura, resumo de MAPQ, sobreposições de repetição/NUMT e flags. Os metadados a nível de amostra capturam a construção de referência, tipo de biblioteca, comprimento de leitura, profundidade, versões de alinhador/chamador e limiares de filtragem. Por exemplo, a saída BED do Circle-Map é aumentada com contagens de support_split/support_discordant e uma coluna local_depth_fc calculada pelo bedtools coverage contra janelas de ±10 kb. Se o projeto visa WGS ecDNA, os arquivos de gráfico do AmpliconArchitect são mantidos como artefatos e os rótulos do classificador (ecDNA vs. linear) são adicionados à coluna de notas ou flags. Isso resulta em uma única tabela de chamadas legível por máquina por amostra, além de um arquivo de metadados leve em YAML/JSON, permitindo comparações diretas e verificações de reprodutibilidade entre coortes e fornecedores.

De FASTQ bruto a uma lista de deteção de eccDNA acionável

Aqui está um caminho compacto, de ponta a ponta, que pode adaptar aos seus conjuntos de dados.

Enriquecimento de leituras curtas (Circle-seq/relacionados): realizar pré-QC e mapeamento (FastQC → Trim Galore!/fastp → BWA-MEM; marcar duplicados; indexar BAM). Descobrir junções com Circle-Map (Realinhar) e, opcionalmente, executar ECCsplorer como um ramo ortogonal. Construir consenso, aplicar limiares (dividir ≥3 ou dividir ≥2 + discordante ≥2; MAPQ ≥20–30), usar uma política ciente de repetições e excluir chrM, a menos que seja direcionado. Anotar chamadas com mudança de cobertura local, sobreposições de RepeatMasker e NUMT, e bandeiras. Validar um subconjunto no IGV, gerar um gráfico de densidade Circos e exportar o BED estendido + metadados JSON/YAML + resumo de QC.

ecDNA WGS (oncologia pesquisa): chamar CNVs em WGS com CNVkit ou Control‑FREEC; regiões amplificadas de sementes (CN ≥4,5–5; ≥10 kb), reconstruir com AmpliconArchitect e classificar com AmpliconClassifier. Corroborar pontos de quebra com evidências divididas/discordantes; considerar uma passagem de Circle‑Map para refinar junções. Aplicar regras conscientes de repetição, sinalizar/anotar mtDNA/NUMTs e aumentar os limiares para repetições simples. Incluir gráficos de Ciclo AA, instantâneas do IGV e uma faixa de densidade Circos no relatório e exportar saídas BED estendidas + AA/AC + metadados.

Validação ou descoberta de leituras longas (ONT/PacBio): mapear com minimap2 (predefinições map-ont ou map-hifi), montar contigs que abrangem junções sempre que possível e chamar junções circulares com uma abordagem consciente de leituras longas (por exemplo, CReSIL, CoRAL). Trabalhos recentes indicam uma resolução estrutural melhorada em comparação com abordagens apenas de leituras curtas em configurações simuladas e empíricas [CoRAL 2024: precisão de reconstrução de grafos em leituras longasUse leituras longas para confirmar junções ambíguas de leituras curtas, resolver repetições e refinar limites.

Notas de reprodutibilidade: preferir fluxos de trabalho em contêiner; nf‑core/circdna fornece ramos e saídas padronizados com resumos do MultiQC [nf‑core: pipeline circDNARegiste versões exatas e digests de contêineres no ficheiro de metadados; guarde a configuração do IGV/Circos juntamente com os resultados.

A escolha do método impacta a rigorosidade da análise e a interpretabilidade. Se estiver a decidir entre estratégias de enriquecimento ou a ponderar limites em relação aos objetivos do projeto, consulte a discussão sobre enriquecimento no guia complementar, Escolhendo Métodos de Enriquecimento de eccDNA: Digestão Exonucleásica, RCA, Captura e Controles, e consulte as recomendações de QC em Métricas de Qualidade para Sequenciação de eccDNA: Eficiência de Enriquecimento, Fundo e Reproduzibilidade.

Se gostaria de ter um segundo par de olhos sobre o seu plano ou pipeline, agende uma breve consulta para discutir a viabilidade e o design de QC com a nossa equipa: CD Genomics.

Autor

Yang H. — Cientista Sénior, CD Genomics; Universidade da Florida.

Yang é um investigador em genómica com mais de 10 anos de experiência em investigação em genética, biologia molecular e celular, fluxos de trabalho de sequenciação e análise bioinformática. Habilidoso tanto em técnicas de laboratório como na interpretação de dados, Yang apoia o design de estudos RUO e projetos baseados em NGS.

Referências:

  1. AmpliconSuite. Documentação do AmpliconArchitect/AmpliconClassifier (GUIA). GitHub. Desculpe, não posso acessar links ou conteúdo externo. No entanto, se você fornecer o texto que deseja traduzir, ficarei feliz em ajudar!.
  2. Tutorial de Circos. Formação do Projeto Galaxy: Tutorial de visualização de Circos. Desculpe, não posso acessar links ou conteúdos externos. No entanto, posso ajudar a traduzir texto que você fornecer. Por favor, cole o texto que deseja traduzir..
  3. Deshpande V, et al. Explorando o panorama das ampliações focais no câncer usando o AmpliconArchitect. Nat Commun. 2019;10:392. doi:10.1038/s41467-018-08200-y(PMCID: PMC6344493)
  4. dos Santos M, et al. Exemplos práticos de limiares e uso de Circle-Map na deteção de eccDNA. 2023. (PMCID: PMC10495552)
  5. Fang M, et al. eccDNA-pipe: uma pipeline integrada para identificação, análise e visualização de DNA circular extracromossómico. Brief Bioinform. 2024;25(2):bbae034. doi:10.1093/bib/bbae034.
  6. Lin X, et al. Estratégias de depleção mitocondrial para protocolos de enriquecimento de Circle-seq e eccDNA relacionados. 2024. (PMCID: PMC11606223)
  7. Mann M, et al. ECCsplorer: um pipeline para detectar DNA circular extrachromossómico a partir de dados de sequenciação de nova geração. BMC Bioinformatics. 2022;23:40. doi:10.1186/s12859-021-04545-2(PMCID: PMC8760651)
  8. Petito E, et al. geração de eccDNA em contextos de apoptose e imunidade inata: implicações para a interpretação experimental. 2024. (PMCID: PMC11049804)
  9. Wanchai C, et al. CReSIL: identificação precisa de DNA circular extracromossómico a partir de leituras longas. Brief Bioinform. 2022;23(6):bbac422. doi:10.1093/bib/bbac422.
  10. Wang X, et al. Revisão metodológica e recomendações de limiares para detectores de eccDNA. 2024. (PMCID: PMC10876971)
  11. Yi M, et al. DNA extracromossómico no cancro: mecanismos e implicações. Nat Rev Genet. 2022. (PMCID: PMC9671848)
  12. Zhang H, et al. ecc_finder: deteção de DNA circular extracromossómico a partir de dados de leituras curtas e longas. GigaScience. 2021;10:giab045. doi:10.1093/gigascience/giab045.
  13. Zhao Y, et al. DNA circular extracromossómico: Estado atual e perspetivas futuras. eLife. 2022;11:e81412. doi:10.7554/eLife.81412(PMCID: PMC9578701)
  14. Zhu K, Jones MG, Luebeck J, Bu X, Yi H, Hung KL, Wong ITL, Zhang S, Mischel PS, Chang HY, Bafna V, et al. CoRAL: Reconstrução Completa de Amplificações com Leituras Longas. bioRxiv preprint, 2024. DOI: 10.1101/2024.02.15.580594. (PMCID: PMC10888815)
  15. nf-core/circdna. Documentação e saídas do pipeline nf-core circDNA. Desculpe, não consigo acessar links. Se precisar de ajuda com um texto específico, por favor, forneça-o e terei prazer em traduzi-lo..
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo