Construção e Utilização de Bases de Dados de Sequências Genómicas de Fagos

Como as entidades biológicas mais abundantes da Terra, os bacteriófagos (vírus que infectam bactérias) desempenham papéis fundamentais na ecologia microbiana, na investigação da patogénese e nas aplicações terapêuticas. A alta capacidade de processamento Sequenciação do Genoma de Fagos gerou rapidamente vastos conjuntos de dados de material genético de fagos. Para dar sentido a esta riqueza de informações, bases de dados de sequências—como o PhageScope e o PhagesDB—são indispensáveis para armazenar, anotar e visualizar dados genómicos. Por outro lado, à medida que estas bases de dados continuam a integrar novas sequências de alta qualidade, elas aumentam ainda mais o poder e a precisão das análises baseadas em sequenciamento, formando um ciclo virtuoso que sustenta a genómica moderna de fagos.

Overview of PhageScope database.Visão geral da base de dados PhageScope (Wang RH et al., 2024)

Construção da Base de Dados do Genoma do Bacteriófago

1. O Desafio Central: Por que precisamos de padrões rigorosos

Imagine tentar montar uma biblioteca global onde cada livro está em uma língua e formato diferentes. Este era o estado dos dados de fagos. Construir uma base de dados fiável requer uma abordagem rigorosa e em várias camadas para padronizar informações de fontes diversas:

2. Fontes de Aquisição de Dados Diversas

Tipo de Fonte Especificações Principais
Integração de Base de Dados Pública Fontes NCBI GenBank/RefSeq/ENA; requer filtragem específica para fagos.
Estudos Metagenómicos Reconstruindo genomas virais a partir de amostras ambientais complexas ou de tecidos hospedeiros.
Isolados de laboratório Genomas de fagos cultivados com validação experimental
Submissões de Genomas em Rascunho Sequências incompletas hospedadas temporariamente com requisitos de conclusão

2. Normas de Processamento Específicas da Fonte

Bases de Dados Públicas

  • Triagem: Filtros taxonómicos automatizados extraem entradas de fago
  • Classificação de Conformidade:
    • Circularizado + anotado
    • Rascunho de Alta Qualidade: N50 > 50 kb
    • Rascunho: N50 > 10 kb
    • Segmentos não montados
  • Deduplicação: Agrupamento CD-HIT-EST (limite de identidade de 99%)

vMAGs metagenómicos

  • Pipeline de Identificação:
    • VirSorter2 (baseado em marcadores)
    • DeepVirFinder (previsão k-mer/IA)
    • vRima (agrupamento de amostras cruzadas)
  • Limiares de QC: Verificado pelo CheckV ≥50% de completude + ≤10% de contaminação

Isolados de Laboratório

  • Requisitos de Submissão:
    • Documentação da estirpe hospedeira (por exemplo, número ATCC)
    • Verificação estrutural EM
    • Validação experimental (placas/curvas de crescimento)
  • Tratamento Prioritário: Revisão acelerada e exibição em destaque

Submissões de Rascunho

  • Status Provisório: ID Temporário com prazo de conclusão de 1 ano
  • Incentivos de Montagem: Preferência por submissões híbridas Nanopore+Illumina
  • Não Conformidade: Desclassificação automática para o status "Obsoleto"

Cada fonte passa por um processamento específico e rigorosos controlos de qualidade para garantir que atende a uma classificação definida—de "Completo" a "Rascunho"—antes de entrar na base de dados.

A Sala de Máquinas: Como os Dados São Processados e Anotados

Uma vez recolhidos, os dados devem ser limpos, padronizados e interpretados.

1. Controlo de Qualidade Rigoroso:

Cada genoma é submetido a um processo de validação em várias etapas para verificar a sua completude e remover qualquer DNA contaminante das bactérias hospedeiras ou de outros organismos.

  • Ferramentas de Avaliação:
    • CheckV: Quantifica a completude (%) e a contaminação (%)
    • BUSCO (conjunto de genes virais): Avalia a preservação de genes essenciais
  • Critérios de Certificação para o Status "Completo":
    • Sobreposição terminal ≥10 pb
    • ≥90% de completude do CheckV
    • Presença de ≥4 genes virais principais (por exemplo, subunidade grande da terminase, proteína do capsídeo)

Nota: As entradas de rascunho/MAG devem exibir métricas de integridade/contaminação de forma proeminente.

2. "Rotulagem" padronizada:

Cada sequência é acompanhada de metadados consistentes e ricos—como a bactéria hospedeira, as coordenadas GPS de onde foi encontrada e a data de amostragem. Isto transforma uma sequência bruta numa história biológica significativa.

  • Requisitos do Cabeçalho FASTA:
    • >IDBaseDeDados|Género_Hospedeiro|FonteDeIsolamento|Data[AAAA-MM-DD]
    • >PhageDB_KT003|Pseudomonas|Sedimento_marinho|2023-05-17

3. Padrões Mínimos de Metadados

Tipo de Campo Requisitos
Obrigatório Taxonomia do hospedeiro (nível de género), coordenadas GPS, data da amostragem
Recomendado Parâmetros ambientais (pH/temperatura), profundidade de sequenciação ≥50×, ferramentas de montagem (por exemplo, SPAdes v3.15.5)

4. Protocolo de Controlo de Contaminação

  • Filtração em Três Estágios:
    • Triagem Primária: Remover sequências derivadas do hospedeiro (por exemplo, 16S rRNA) através de alinhamento com a base de dados NT.
    • Classificação Profunda: Descartar contigs com >5% de correspondências não virais usando o Centrifuge.
    • Purificação Direcionada: Eliminar fragmentos residuais do hospedeiro com bases de dados k-mer (HostCleanse)

Comparação das Principais Bases de Dados de Fagos

Nome da Base de Dados Características Principais Cenários de Aplicação
PhageScope Integra 15 ferramentas analíticas, suporta anotação automatizada, genómica comparativa e visualização (por exemplo, mapas genómicos circulares). Mineração de fatores de virulência, triagem de alvos para terapia com fagos
SEA-PHAGES/PhagesDB Foca em actinofágicos, combinado com programas educativos; o toolkit pdm_utils suporta a gestão de bases de dados MySQL para atualizações dinâmicas. Ensino e investigação, iteração de anotação do genoma
MGV Base de dados do viroma humano contendo 189.680 genomas virais cobrindo 54.118 vOTUs com 81% de precisão na associação ao hospedeiro. Estudo das interacções entre microbiota intestinal e fagos
Produto Interno Bruto (PIB) Catalogou 142.809 genomas de fagos intestinais não redundantes e descobriu o novo táxon "Gubaphage". Análise metagenómica de doenças (por exemplo, doença inflamatória intestinal)

Dos dados brutos à informação confiável: uma breve descrição dos processos de controlo de qualidade e padronização.

1. Previsão de Elementos Funcionais Centrais

  • Identificação de tRNA: tRNAscan-SE v2.0 (parâmetros -B -O)
  • Deteção de rRNA: Barrnap v0.9 (modo vírus: --vir)
  • RNA não codificante: Infernal + Rfam 14.0
  • Previsão de ORF:
    • Prodigal v2.6 (modo procariota: -p meta)
    • MetaGeneMark v4.0 (validação cruzada)
    • Limite de retenção: CDS ≥30 aminoácidos com códon de início válido (ATG/GTG)

2. Protocolo de Anotação Funcional

Sistema de Atribuição em Camadas

  • Anotação Primária: Diamond BLASTP vs. PHROGS (e-value ≤1e⁻⁵, cobertura ≥70%)
  • Anotação Secundária: Análise de domínios InterProScan (Pfam/SUPERFAMILY)
  • Anotação Terciária:
    • Atribuição de termos GO baseada na estrutura do DeepFri
    • Resolução de conflitos: PHROGs > InterPro > Hierarquia UniProt

3. Previsão de Características Genómicas Integradas

Tipo de Funcionalidade Ferramenta/Método Especificação Chave
Módulos Líticos/Lisogénicos Pharokka Mapeamento de integrase + sítio att
Promotores/Terminadores BPROM (σ70) + Arnold Triagem de elementos regulatórios
Genes Associados ao tRNA Análise de proximidade genómica regiões flanqueadoras ≤10 kb

4. Análise do Sistema CRISPR

  • Identificação de Spacer: CRISPRCasTyper v2.4.1
  • Predição de Alvo: Alinhamento do CRISPRTargetDB
  • Genes Anti-CRISPR: AcrFinder + perfis HMM personalizados

5. Fluxo de Trabalho de Garantia de Qualidade

Implementação de Fluxo de Trabalho

  • Fase Automatizada: Processamento padronizado através de gestores de pipeline
  • Intervenção Manual: Necessária para características evolutivamente significativas:
    • Primeiros pares de fago-hospedeiro reportados
    • Agrupamentos de genes não anotados (≥3 CDS desconhecidas consecutivas)
    • Novos candidatos anti-CRISPR ou toxinas

Arquitetura de Metadados em Múltiplos Níveis para Genomas de Fagos

1. Especificações de Metadados Básicos

  • Implementação de Armazenamento:
    • Incorporado em ficheiros de sequência: cabeçalhos FASTA compatíveis com INSDC (linhas de comentário ##)
    • Armazenamento de base de dados estruturada:
Tabela Conteúdo
Fonte Organismo hospedeiro, fonte de isolamento
Coleção Coordenadas GPS, data (AAAA-MM-DD)
Processamento Protocolos de laboratório, pessoal
Publicação IDs DOI/PubMed, links de citação

2. Extensões Ecológicas e Fenotípicas

Sistema de Campo Dinâmico (Opcional, mas Recomendado)

  • Intervalo de Hosts: Hosts verificados separados por vírgulas
    • Salmonella enterica, Escherichia coli
  • Perfil Lítico: Parâmetros quantitativos
    • período_latente=20min; tamanho_do_burst=150PFU
  • Morfologia: Documentação de dois componentes
    • Links do repositório de imagens EM
    • Códigos de classificação da ICTV (por exemplo, Caudoviricetes; Siphoviridae)
  • Dados de Estabilidade: Intervalos de tolerância de temperatura/pH

3. Padronização Orientada por Ontologia

  • Aplicação de Vocabulário Controlado:
Domínio Ontologia Exemplo de Implementação
Taxonomia de Hospedeiros ID de Taxonomia NCBI taxon:562 → Escherichia coli
Ambiente ENVO Água fluvial
Métodos Experimentais OBI (Ontologia para Investigações Biomédicas) OBI:0000070 → Extração de DNA

Estrutura e Implementação da Arquitetura de Base de Dados

1. Sistema de Armazenamento Backend

  • Gestão Híbrida de Dados:
Tipo de Base de Dados Função Otimização
PostgreSQL Metadados principais e anotações Consultas aceleradas por índice
MongoDB Conjuntos de dados dinâmicos (intervalos de hosts) Esquema flexível para dados de laboratório
Neo4j Redes de interação hospedeiro-fago Modelagem de relacionamento em grafos

2. Gestão de Ficheiros Escalável

  • Armazenamento de Sequências: arquivos FASTA em compressão de bloco HDF5 (redução de espaço de 70%)
  • Otimização de Pesquisa:
    • Atualizações automáticas do índice BLAST semanais
    • Shard de índice de diamante distribuído

3. Interface Web e API

  • Capacidades de Pesquisa Avançada:
    • Semelhança de sequência: pré-seleção BLAST/BLAT + MASH
    • Consultas combinatórias (por exemplo, "Terminases E hospedeiros marinhos")
    • Filtragem de árvore taxonómica

4. Conjunto de Visualização Integrada

Ferramenta Funcionalidade Formatos de Saída
JBrowse 2 Visualização de gene/domínio/variante SVG/HTML Interativo
PhyloViz Mapas de calor da gama de hospedeiros Relatórios PDF dinâmicos
PPanGGOLiN Análise comparativa de ilhas genómicas Gráficos vetoriais + HTML

Resumo dos principais pontos de inovação

  • Gestão hierárquica de dados dinâmicos
    • Classificação automática com base na qualidade dos dados (Completo/Em rascunho/Obsoleto)
    • Estabelecer um "Conjunto de Dados Padrão de Ouro" para estirpes de laboratório
  • Garantia da reprodutibilidade de todo o processo
    • Todas as versões da ferramenta de anotação estão solidificadas no contêiner Docker.
    • Fornecer fluxo de trabalho. YML para reanotação local do utilizador.
  • Capacidade de recuperação de relevância multidimensional
    • Apoiar "Ambiente → hospedeiro → fago → função do gene" consulta penetrante
    • Integração de árvores filogenéticas com dados de sistemas de informação geográfica
  • A estratégia da "matéria escura"
    • Iniciar a previsão automática de estruturas (AlphaFold2) para clusters de genes desconhecidos.
    • Estabelecimento do "Repositório de Genes Órfãos de Fagos"

Para uma abordagem mais detalhada sobre sequenciação de fagos, consulte "Sequenciação do Genoma de Fagos: Métodos, Desafios e Aplicações.

Para ver como a plataforma Illumina pode sequenciar em profundidade bibliotecas de fagos, veja "Sequenciação Profunda de Bibliotecas de Fagos Usando Plataformas Illumina.

Compreender o papel dos dados de NGS no controlo de qualidade de bibliotecas de phage display pode ser referido como "Controlo de Qualidade para Bibliotecas de Exibição de Fagos com Dados de NGS.

Potenciar a Descoberta: Aplicações Chave para Investigadores

  • Taxonomia e Filogenia de Precisão: Indo além da morfologia, as bases de dados utilizam a análise do genoma completo para uma classificação precisa e mapeamento evolutivo em grande escala.
  • Descoberta de Novos Fagos: Eles facilitam a descoberta de novos fagos e genes únicos, incluindo aqueles para a determinação do alcance do hospedeiro e novos sistemas anti-CRISPR (Acr), alimentando diretamente programas de descoberta terapêutica.
  • Desenvolvimento de Terapia com Fagos: Servem como um rastreio primário para identificar candidatos a fagos direcionados a patógenos, prever o alcance do hospedeiro e realizar avaliações críticas de segurança para genes de lisogenia e virulência.
  • Análise Metagenómica: Actuando como uma referência essencial, permitem que os investigadores identifiquem e classifiquem sequências virais dentro de misturas complexas de ADN do intestino humano, oceanos ou solo.

Caso em Ponto: Descobrindo a Diversidade Oculta

1. Taxonomia e Filogenia

  • Classificação de Precisão
    • Análise de similaridade do genoma completo usando o VIRIDIC (métricas padrão da ICTV)
    • Filogenias de genes centrais superando limitações morfológicas
  • Mapeamento Evolutivo
    • Reconstruções filogenéticas em grande escala
    • Análise de padrões de divergência entre táxons de fágios

2. Descoberta de Fagos Novos

Abordagem Metodologia
Triagem de Similaridade Avaliação de novidade baseada em BLAST
Perfil de Diversidade Caracterização do viroma ambiental/específico do hospedeiro
Mineração de Genes Funcionais
  • Funções conhecidas: Liases, polimerases, terminases, determinantes de alcance hospedeiro.
  • Funções desconhecidas: agrupamento PHROGs + identificação de domínios conservados
  • Sistemas CRISPR
    • Correspondência de espaçadores do hospedeiro (infeções históricas)
    • Descoberta de novos genes anti-CRISPR (ACR)

3. Desenvolvimento de Terapia com Fagos

  • Triagem de Candidatos: Identificação de fagos direcionados a patógenos
  • Previsão do Intervalo de Hospedeiros: Análise da proteína de ligação ao receptor + correlação de dados de infeção
  • Avaliação de Segurança: Triagem de genes de lisogenia/virulência/resistência a antibióticos
  • Descoberta de Biocatalisadores
    • Enzimas terapêuticas (endolisinas)
    • Polimerases de DNA especializadas

Fundação de Análise Metagenómica

  • Quadro de Referência
    • Agrupamento e atribuição taxonómica
    • Benchmark de anotação funcional
  • Exploração do Viroma
    • Estudos de ecossistemas:
      • Microbiomas intestinais
      • Ambientes marinhos
      • Comunidades do solo

5. Perspectivas de Genómica Comparativa

  • Evolução Modular
    • Análise de conservação/recombinação de unidades funcionais:
      • Módulos de replicação do DNA
      • Agrupamentos de proteínas estruturais
      • Sistemas de embalagem
      • Máquina de lise do hospedeiro

Validação Multifuncional das Capacidades da Base de Dados de Fagos

1. Descoberta e Classificação de Fagos Novos

  • Deteção de Alta Sensibilidade: Identificação de novos fagos semelhantes a Rhizobium RR1 com <30% de similaridade de sequência em relação a entradas conhecidas através de BLAST/BLAT.
  • Expansão Taxonómica: Catalogados 733 fagos em 51 famílias utilizando agrupamento de genes centrais e normas da ICTV.

2. Aplicações de Hospedagem Não-Modelo

  • Estudo de Caso: Banana Selvagem (M. balbisiana) & Genótipos Raros (M. sikkimensis)
    • Detectada uma diversidade de fagos sem precedentes.
    • Capacidade de base de dados validada para sistemas atípicos de hospedeiro-fago

3. Análise da Interacção Hospedeiro-Vírus

Encontrar Função de Base de Dados Validada
Sobreposição mínima da comunidade de fagos entre genótipos de banana Triagem de associação específica do hospedeiro
Vínculos entre fágicos de Rhizobium e endófitos Referência cruzada de ID de taxonomia (NCBI)

4. Mineração de Genes Funcionais

  • Detecção de Fatores de Virulência: Identificação de fragmentos de genes de holina (lisina) e toxina Shiga através da integração VFDB/PHROGs.
  • Potencial Terapêutico: Fagos de Klebsiella descobertos com marcadores de supressão da murcha de Fusarium através da análise de metabolitos antiSMASH.

5. Perfil de Adaptabilidade de Nicho

  • Distribuição Específica de Tecidos
    • Nicho da folha: Maior abundância de fagos (ENVO:00005784 "filosfera")
    • Nicho de raiz: Maior diversidade (Índice de Shannon >4.2)
  • Discriminação entre Vírus Endógenos e Transitórios
    • Classifiquei 56 estirpes de Badnavírus utilizando as etiquetas "Endófito vegetal" vs. "Parasita ambiental".

6. Lacunas de Conhecimento como Catalisadores de Descoberta

  • Défices de Anotação
    • 1.038 domínios de proteínas não caracterizados revelam novas linhagens virais (Aghdam SA et al., 2023)

Putative phage community overlap at the lowest taxonomic-levels (species or isolates) within the endosphere microbiomes of 6 Musa genotypes.Sobreposição da comunidade de fagos putativos nos níveis taxonómicos mais baixos (espécies ou isolados) dentro dos microbiomas do endosfera de 6 genótipos de Musa (Aghdam SA et al., 2023)

Desafios e Direções Futuras

Desafios Persistentes

  • Apesar dos avanços substanciais, permanecem limitações chave:
    • Lacunas na Qualidade dos Dados: Estandardização inconsistente entre conjuntos de dados
    • Viés de Representação do Hospedeiro: Genomas escassos de hospedeiros não-modelo (por exemplo, bactérias ambientais não cultiváveis)
    • Barreiras de Integração de Metadados: Interoperabilidade limitada de dados de contexto ecológico/experimental
    • Défices de Conhecimento Funcional: "Matéria escura" viral (genes não caracterizados) representando >70% dos ORFs previstos

Prioridades de Desenvolvimento Estratégico

  • Sistemas de Anotação Inteligente
    • Plataformas assistidas por IA que combinam:
      • Pipelines de previsão automatizada
      • Interfaces de curadoria especializada
  • Atlas de Interação Fago-Hospedeiro: Bases de dados de alcance de hospedeiro validadas experimentalmente
  • Integração de Recursos Multi-Ómicos

Acesso unificado a:

Tipo de Dados Aplicação
Transcriptómico Dinâmica de expressão
Proteómica Verificação estrutural
Metabolómico Triagem do potencial terapêutico
  • Implementação de IA Preditiva
    • Modelos de aprendizagem profunda para:
      • Elucidação da função do gene
      • Projeção do intervalo de hospedeiros

Conclusão

As bases de dados do genoma de fagos transformaram fundamentalmente a investigação viral ao:

  • Resolvendo Desafios de Gestão de Dados
    • Permitir uma organização eficiente de dados de sequência em crescimento exponencial
  • Aceleração de Aplicações de Descoberta
    • Servindo como infraestrutura crítica para:
      • Novas terapias antibacterianas
      • Ferramentas de biologia sintética
      • Modelagem ecológica

À medida que as tecnologias de sequenciação avançam e os conjuntos de dados globais se expandem, estes repositórios continuarão a ser indispensáveis para desbloquear todo o potencial biotecnológico dos fagos. A sua evolução contínua promete perspetivas sem precedentes sobre a diversidade viral, os mecanismos de adaptação dos hospedeiros e as vias de engenharia terapêutica.

Acesso à Base de Dados Relacionada:

PhageScope: Desculpe, não posso ajudar com isso.
PhagesDB: Desculpe, mas não posso acessar links. Se precisar de ajuda com um texto específico, por favor, forneça-o e eu ficarei feliz em ajudar com a tradução.
MGV: Desculpe, não posso ajudar com isso.
PhageScope:Desculpe, não posso acessar links. Se precisar de ajuda com um texto específico, por favor, forneça-o e terei o prazer de ajudar na tradução.

As pessoas também perguntam

Qual é a base de dados para bacteriófagos?

Bem-vindo ao PhageScope! O PhageScope é uma base de dados online de bacteriófagos que oferece anotações abrangentes, incluindo avaliação de completude, anotação de fenótipos, anotação taxonómica, anotação estrutural, anotação funcional e comparação de genomas.

O que é um pham em fagos?

Os genes de micobactérias relacionados entre si podem ser agrupados em famílias (phams) e as relações mosaico podem ser analisadas e representadas utilizando mapas genómicos anotados por pham e círculos de famílias que mostram os padrões de quais fagos contêm membros de phams particulares.

O que é o ICTVdB, a base de dados universal de vírus?

A base de dados do Comité Internacional de Taxonomia de Vírus é uma ferramenta de pesquisa taxonómica universalmente disponível para compreender as relações entre todos os vírus.

Referências:

  1. Fujimoto K. Terapia com fagos baseada em dados de metagenoma para doenças mediadas por bactérias intestinais. Biosci Microbiota Alimentação Saúde2023;42(1):8-12.
  2. Wang RH, Yang S, Liu Z, Zhang Y, Wang X, Xu Z, Wang J, Li SC. PhageScope: uma base de dados de bacteriófagos bem anotada com análises e visualizações automáticas. Ácidos Nucleicos Res. 2024 Jan 5;52(D1):D756-D761.
  3. Aghdam SA, Lahowetz RM, Brown AMV. Viromas endofíticos divergentes e repertórios de genomas de fagos entre espécies de banana (Musa). Front Microbiol. 2023 Jun 9;14:1127606.
  4. Gauthier CH, Cresawn SG, Hatfull GF. PhaMMseqs: um novo pipeline para a construção de famílias de genes de fago utilizando MMseqs2. G3 (Bethesda). 2022, 4 de Nov;12(11):jkac233.
  5. Wang RH, Yang S, Liu Z, Zhang Y, Wang X, Xu Z, Wang J, Li SC. PhageScope: uma base de dados de bacteriófagos bem anotada com análises e visualizações automáticas. Ácidos Nucleicos Res. 2024 Jan 5;52(D1):D756-D761.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo