Um Guia para De Novo Montagem do Genoma

A montagem do genoma é um dos principais objetivos do sequenciamento. A montagem de genoma de novo é uma estratégia para a montagem do genoma, representando a montagem de um genoma novo do zero, sem a ajuda de dados genómicos de referência. As montagens de genoma de novo não assumem conhecimento prévio sobre o comprimento, disposição ou composição da sequência de DNA fonte.

Passos gerais em um fluxo de trabalho de montagem de genomaFigura 1. Passos gerais em um fluxo de trabalho de montagem de genoma (Angel et al. 2018).

Tipos de leituras

Para montar um genoma com as plataformas de sequenciamento de nova geração, os programas de computador normalmente utilizam leituras simples e pareadas. Essas 'leituras' variam de 20 a 1000 pb de comprimento, dependendo da plataforma de sequenciamento utilizada. As leituras simples são os fragmentos sequenciados curtos, que podem ser unidos de acordo com regiões sobrepostas em uma sequência contínua conhecida como 'contig'. As leituras pareadas têm aproximadamente o mesmo comprimento que as leituras simples, mas vêm de cada extremidade dos fragmentos de DNA. Comparadas às leituras simples, as leituras pareadas são preferidas, pois ajudam a ligar contigs em 'andaimes' e indicam o tamanho das regiões repetitivas.

Mesmo assim, sequências repetitivas, variantes, dados ausentes e erros às vezes limitam a eficiência e a precisão da montagem do genoma. As tecnologias de leituras longas surgem no momento certo, pois abrangem trechos de regiões repetitivas e, assim, geram uma reconstrução contígua do genoma. Atualmente, esta nova geração é dominada por dois métodos, sequenciamento de molécula única em tempo real (SMRT) e sequenciamento por nanoporo, defendidos pela Pacific Biosciences (PacBio) e Oxford Nanopore Technologies, respetivamente. O SMARTdenovo é um pipeline de montagem OLC de leitura longa que demonstrou produzir montagens de continuidade razoavelmente alta a partir de leituras de MinION e SMRT.

Montagem do genoma Illumina

Usaremos a montagem do genoma Illumina como exemplo para introduzir o fluxo de trabalho de montagem do genoma com dados de NGS, uma vez que o sequenciamento Illumina é uma das abordagens mais comuns para estudos genómicos.

Fluxograma do protocolo de montagem de de novo.Figura 2. Fluxograma do protocolo de montagem de novo.

  • Avaliação da qualidade das leituras

Antes da montagem do genoma, é importante avaliar a qualidade dos dados de sequência, pois isso pode levar a conclusões erradas. As leituras podem ser armazenadas nos formatos Fasta, FastQ, SAM e BAM. O FastQ é o arquivo de leitura mais comum, pois é produzido pelo pipeline de sequenciamento Illumina. Além dos tipos de leitura, outras questões, incluindo o número de leituras, o conteúdo de GC e a contaminação, também precisam ser consideradas.

A precisão da chamada de bases avalia a probabilidade de que uma determinada base seja chamada incorretamente e é comumente determinada pelos scores de qualidade Phred (pontuação Q). O FastQC é a ferramenta mais comum para controle de qualidade de dados brutos. As principais saídas do FastQC incluem comprimento da leitura, tipo de codificação de qualidade, %GC, número total de leituras, presença de k-mers altamente recorrentes, presença de grandes quantidades de N's nas leituras e quedas na qualidade perto do início, meio ou fim das leituras.

  • Pré-processamento de dados brutos

Uma vez determinada a qualidade dos dados de sequência, muitas ferramentas para corte de qualidade estão disponíveis no Galaxy ou por linha de comando, como o Trimmomatic. Ele pode lidar com emparelhamento de leituras, se você tiver leituras pareadas. O Trimmomatic pode realizar várias funções de corte de leitura sequencialmente, incluindo:

  1. Corte de adaptadores. Esta função corta adaptadores, códigos de barras e outros contaminantes.
  2. Corte de janela deslizante. Esta função trabalha para medir a qualidade média e corta de acordo.
  3. Corte de qualidade de bases. Esta função corta bases de baixa qualidade no final e no início.
  4. Comprimento mínimo da leitura. Esta função garante que as leituras após todos os passos de corte sejam mais longas que o comprimento mínimo da leitura. Se não, as leituras são removidas.

O PRINSEQ é uma ferramenta semelhante para corte de qualidade de dados brutos.

  • Montagem de genoma de novo

O próximo passo é montar as leituras cortadas por qualidade em contigs provisórios. O software de montagem sugerido para esta etapa é o Velvet Optimiser, que envolve o Velvet Assembler. O Velvet Assembler é especificamente escrito para leituras curtas no estilo Illumina e utiliza a abordagem do grafo de de Bruijn. O Velvet Assembler e o Velvet Optimiser podem aceitar múltiplos arquivos de leitura (como SAM, BAM, FastQ e Fasta) e tipos (como final único, final pareado e par de mates). A qualidade dos contigs montados pelo Velvet depende principalmente da configuração de seus parâmetros. Os parâmetros mais críticos incluem o tamanho do hash, a cobertura esperada e o corte de cobertura. Montadores de novo alternativos incluem Spades, SOAP-denovo, MIRA e ALLPATHS.

  • Polimento da montagem

Após todos os passos acima, você obterá contigs provisórios contendo algumas lacunas ou regiões de 'N's. E alguns deles podem ser montagens erradas. Em seguida, você precisa melhorar sua montagem usando ferramentas de verificação de montagem errada e métricas de montagem, como QUAST, InGAP-SV e métricas de montagem Mauve.

Se você quiser finalizar seu genoma, precisará usar dados mais variados ou usar outras ferramentas com seus dados atuais. E as ferramentas alternativas para finalizar o genoma incluem preenchimentos de lacunas semi-automatizados (por exemplo, Gap filler), visualizadores e editores de genoma (Artemis, IGV, Geneious, CLC BioWorkbench) e ferramentas de anotação (por exemplo, Prokka, RAST e JCVI Annotation Service).

Referências:

  1. Lannoy C D, Ridder D D, Risse J. As longas leituras à frente: de novo montagem de genoma usando o MinION. F1000Research, 2017, 6.
  2. Baker M. De novo montagem de genoma: o que todo biólogo deve saber. Nature Methods, 2012, 9: 333-337
  3. Del Angel V D, Hjerde E, Sterck L, et al. Dez passos para começar na Montagem e Anotação de Genomas. F1000Research, 2018, 7.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo