Análise Bioinformática de Sequenciação Metagenómica Viral
Metagenómica viral é o estudo de vírus em amostras ambientais e biológicas através da utilização de sequenciação de nova geração que gera conjuntos de dados muito grandes. A metagenómica viral analisa sequências virais para deduzir o impacto dos vírus no ambiente da saúde humana. Ao contrário de sequenciação de amplicons, metagenómica obtém e investiga material genético diretamente de amostras ambientais, o que levou a uma nova compreensão da diversidade e função do mundo microbiano. A análise bioinformática é um dos procedimentos mais importantes para este fim.
Pipeline de bioinformática para metagenómica viral
O pipeline geral de bioinformática para metagenómica viral inclui verificação e filtragem de qualidade, montagem, bem como classificação taxonómica e agrupamento. Existem dois tipos de métodos para classificação taxonómica, ou seja, métodos baseados em similaridade e métodos baseados em composição. Um exemplo representativo de classificação taxonómica baseada em similaridade são as pesquisas NCBI BLAST. Os métodos de classificação taxonómica que exploram a composição do genoma, como o conteúdo de GC ou o uso de oligómeros curtos (k-mers), são conhecidos como métodos baseados em composição, que podem ser utilizados para a classificação taxonómica de sequências que não têm homologias ou que são altamente divergentes de sequências em bases de dados. Comparados com os métodos baseados em similaridade, os métodos baseados em composição têm menor precisão e dependem em grande parte do comprimento da sequência.
Figura 1. Pipeline de bioinformática para metagenómica viral (Bzhalava e Dillner 2013).
Aqui apresentamos duas pipelines de bioinformática que estão disponíveis para uma análise abrangente do viroma: VIROME e Metavir 2.
VIROMA
O Recurso de Informática Viral para Exploração de Metagenomas (VIROME), descrito pela primeira vez por Wommack. et al.. (2012), enfatiza a classificação do sequenciamento de metagenomas virais (quadros de leitura abertos previstos, ORFs) com base na análise de homologia. A análise VIROME baseia-se em três bases de dados de sequências de proteínas, cinco bases de dados anotadas (SEED, ACLAME, COG, GO e KEGG), na base de dados UniVec e no CD-Hit 454. O algoritmo CD-Hit 454 é utilizado para pesquisar bibliotecas de sequências do pirosequenciador 454 em busca de sequências duplicadas falsas. A base de dados de peptídeos UniRef 100 é utilizada para detectar sequências de metagenomas virais com semelhança a proteínas conhecidas. A base de dados de peptídeos MetaGenomes On-line (MGOL) contém sequências de peptídeos previstas de 137 bibliotecas de metagenomas, que é utilizada para a deteção de semelhança com sequências ambientais desconhecidas.
O pipeline VIROME envolve controlo de qualidade, análise de sequências, caracterização funcional e taxonómica de ORFs, classificação de ORFs e caracterização ambiental. Cada sequência é primeiro cortada para qualidade e removida de ligadores, adaptadores, sequenciadores de código de barras e provavelmente leituras duplicadas falsas. Subsequentemente, as leituras de sequenciamento que têm homologia significativa a uma sequência de RNA ribossómico (rRNA) são removidas utilizando BLASTN contra a base de dados de rRNA. O tRNAscan-SE é utilizado para rastrear a presença de tRNAs e ORFs usando o MetaGene Annotator. Um ficheiro multi-fasta de sequências peptídicas é então construído e analisado usando BLASTP contra as bases de dados UniRef 100 e MGOL. Os peptídeos previstos também podem ser caracterizados usando as bases de dados de sequências anotadas. Com base nos resultados das análises BLASTP, cada peptídeo previsto do metagenoma viral é dividido em sete classes VIROME (Figura 3).
Figura 2. Visão geral do fluxograma do pipeline bioinformático VIROME (Wommack et al.. 2012)
Figura 3. Diagrama de fluxo geral do esquema de classificação VIROM para peptídeos ambientais (Wommack) et al.. 2012).
Metavir 2
Metavir 2, descrito por Roux et al. (2014), é a primeira ferramenta concebida para uma análise abrangente de sequências de viromas montadas. O Metavir é dedicado à análise de viromas carregados por registos, seja viromas compostos por leituras brutas ou viromas montados em contigs. Muitos softwares estão disponíveis para a etapa de montagem: o Newbler pode ser utilizado para dados 454, e os dados da Illumina podem ser montados utilizando SOAP, MetaVelvet, OptiDBA e Idba-ud.
- Para leituras não montadas
As leituras do viroma são primeiramente comparadas aos genomas virais completos da base de dados RefSeq Virus usando BLAST, a fim de determinar a composição taxonómica. O viés da distribuição de frequência de K–mer é calculado para todos os conjuntos de dados sem restrição de tamanho. As análises filogenéticas são realizadas com o FastTree. Com base nos resultados das correspondências BLAST contra o RefseqVirus, podem ser feitos dois tipos de gráficos de recrutamento: um gráfico de dispersão e um histograma.
- Para viromas montados
Para viromas montados, as ORFs são primeiro previstas através do MetaGeneAnnotator. Todas as ORFs traduzidas previstas são então comparadas a bases de dados, incluindo a base de dados de proteínas RefseqVirus usando BLASTp, e a base de dados PFAM de domínios de proteínas usando HMMScan.
Um mapa genómico interactivo pode ser criado para exibição de contigs utilizando RaphaelSVG e o plugin Raphael-zpd. As semelhanças entre contigs e entre contigs e genomas virais podem ser visualizadas como uma rede interactiva criada com Cytoscape-web. Associada a esta rede, a colinearidade entre contigs e genomas ou outros contigs pode ser exibida através do RaphaelSVG e do Raphael-zpd.
Referências:
- Wommack K E, Bhavsar J, Polson S W, et al.VIROME: um procedimento operacional padrão para análise de sequências de metagenoma viral. Standards in genomic sciences, 2012, 6(3): 421.
- Bzhalava D, Dillner J. Bioinformática para metagenómica viral. J Data Mining Genomics Proteomics, 2013, 4(3): 2153-0602.1000134.
- Roux S, Tournayre J, Mahul A, et al.Metavir 2: novas ferramentas para comparação de metagenomas virais e análise de viromas montados. BMC bioinformática, 2014, 15(1): 76.