Convencional montagem do genoma é uma tarefa computacional chave em genómica, onde o montador reconstrói o genoma completo a partir de uma coleção de resumos curtos de sequências de ADN ou ARN. Este processo fundamenta grande parte da investigação biológica, desde questões de função genética, investigação evolutiva e aplicações forenses. Montagem do genoma é um primeiro passo em muitos estudos genómicos, e a qualidade da montagem informa a sua utilização para a chamada de variantes e inferência filogenética. A montagem do genoma é facilitada e otimizada por ferramentas e algoritmos especializados projetados para enfrentar esses desafios, incluindo aspectos como sequências repetitivas, erros de sequenciação e a enorme quantidade de dados brutos produzidos por tecnologias de sequenciação de alto rendimento.
A montagem do genoma evoluiu juntamente com tecnologias de sequenciação do genoma (Sanger, Illumina, PacBio e Oxford Nanopore) e metodologias de montagem associadas. Estas ferramentas resultantes permitiram a montagem de genomas que variam desde pequenos genomas virais até genomas de grandes eucariotos que são tipicamente altamente repetitivos e poliplóides. Cada ferramenta tem as suas próprias limitações e vantagens, o que também se aplica a determinados tipos de dados, bem como aos níveis de complexidade dos genomas e objetivos de pesquisa. Este artigo fornecerá uma visão geral das principais classes de ferramentas de montagem de genomas, o que elas fazem e como evoluíram no panorama da genómica.
Ferramentas genómicas para montagem de genomas
As ferramentas de montagem de genomas podem ser geralmente divididas pelo tipo de dados de sequenciação em que se aplicam e pela estratégia de montagem que seguem. Em consonância, as categorias acima cobrem um espectro biologicamente relevante de desafios — precisão, escalabilidade e montagem de genomas mais complexos. Para abordar as questões que surgem no processo de montagem de genoma de novocada vez mais ferramentas estão a ser desenvolvidas.
Serviço que pode interessar-lhe
Recurso
Ferramentas de Montagem de Leituras Curtas
Uma plataforma de sequenciação de leitura curta é a Illumina, que cria leituras únicas de precisão extremamente alta, tipicamente entre 50 a 300 pares de bases de comprimento. Estas leituras curtas são ideais para cobrir áreas de forma profunda, bem como para encontrar pequenas variantes, mas não resolvem estruturas genómicas de longo alcance ou áreas repetitivas.
- SPAdesO SPAdes é a ferramenta mais amplamente utilizada para pequenos montagem do genomaA sua abordagem baseada em grafos de De Bruijn permite-lhe lidar rapidamente com conjuntos de dados de leituras curtas. SPAdes: para genomas microbianos, metagenomas e montagens de transcriptomas. Devido aos seus fortes códigos de correção de erros e à utilização de um processo de montagem iterativo, o dispositivo alcança taxas de erro muito baixas, tornando-se uma escolha popular para implementações onde a fidelidade é desejada.
- VeludoO Velvet foi uma das primeiras ferramentas desenvolvidas para a montagem de leituras curtas e continua a ser uma escolha muito legível para projetos genómicos moderadamente complexos. Construir gráficos de De Bruijn com ele é económico em termos de memória—o comprimento computacional é sacrificado em prol da precisão da montagem. O Velvet destaca-se especialmente com conjuntos de dados que têm cobertura constante.
- SOAPdenovoProjetado para genomas de grandes projetos, o SOAPdenovo destaca-se na montagem de genomas de plantas e animais a partir de dados de leituras curtas. Utiliza técnicas de computação paralela para lidar com as exigências computacionais de grandes conjuntos de dados e permite que os investigadores montem genomas com longas regiões repetitivas, desde que a profundidade de sequenciação seja adequada.
Ferramentas de Montagem de Longa Leitura
Sequenciação de leitura longa as plataformas (PacBio e Oxford Nanopore) produzem leituras na casa das dezenas de quilobases. Essas leituras são particularmente adequadas para abordar sequências repetitivas, modificações estruturais e outras áreas desafiadoras dos genomas que os dados de leituras curtas não conseguem resolver.
- CanuO assemblador Canu é um excelente assemblador para dados de longas leituras com alta taxa de erro. O Canu utiliza um algoritmo de Sobreposição-Disposição-Consenso (OLC) que alinha as leituras, encontra sobreposições e organiza as leituras, criando assemblagens muito contíguas. É particularmente eficaz na construção dos genomas de organismos grandes e complexos — até mesmo organismos ricos em repetições — e abriu as portas para a montagem de qualidade de referência dos genomas de plantas e animais.
- FlyeEste montador é otimizado para velocidade e para a montagem de genomas a partir de dados long-read ruidosos. Os seus algoritmos tolerantes a erros permitem reconstruir genomas microbianos e eucarióticos com alta eficiência. Os fluxos de trabalho rápidos do Flye possibilitam uma gama de aplicações, desde investigação académica até aplicações industriais que requerem um tempo de resposta acelerado.
- ShastaEsta tecnologia é direcionada para leituras ultra-longas e permite o processamento rápido de grandes genomas com boa eficiência computacional, apresentando algoritmos de ponta para correção de erros de leitura e criação de layout de montagem, a fim de produzir montagens muito contíguas para projetos de grande escala, como os genomas humanos.
Ferramentas de Montagem Híbrida
Os algoritmos de montagem de métodos híbridos exploram os benefícios tanto das sequências de leituras curtas como das leituras longas. Isso permite que produzam uma solução robusta para montar genomas difíceis, combinando a precisão das leituras curtas com o alcance das leituras longas.
- MaSuRCASoftware para tentar uma montagem com leituras curtas da Illumina e leituras longas da PacBio ou Nanopore. Os seus algoritmos alinham e fundem iterativamente as leituras para promover a continuidade e a precisão, ao mesmo tempo que resolvem regiões repetitivas. O MaSuRCA é particularmente bom para genomas grandes e repetitivos; genomas de plantas e anfíbios encaixam-se nesta descrição.
- UnicicloDesenhado para a montagem de genomas bacterianos, o Unicycler suporta dados de leituras curtas e longas para montagens completas e circularizadas. Tornou-se a ferramenta preferida para a genómica microbiana devido à sua fidelidade em relação a plasmídeos e genomas pequenos.
- SPAdes (Modo Híbrido)As extensões do SPAdes incluem conjuntos de dados híbridos que integram várias plataformas de sequenciação para melhorar a qualidade da montagem. Isso é particularmente útil para projetos metagenómicos que estão a combinar várias tecnologias de sequenciação.
Funções das Ferramentas de Montagem de Genomas
Existem uma variedade de ferramentas de montagem de genomas para acomodar os desafios dos dados de sequenciação inerentes ao processo. Essas características são importantes para preservar a completude e a precisão da montagem do genoma.
- Correção de ErrosOs erros de sequenciação diminuem a qualidade da montagem, especialmente em conjuntos de dados criados por plataformas de alta taxa de erro, como a Nanopore. Ferramentas como o Pilon (leituras curtas) e o Racon (leituras longas) aprimoram ainda mais as montagens ao detectar e resolver discrepâncias, melhorando significativamente a precisão das bases.
- AndaimesA estrutura de suporte conecta contigs em estruturas maiores e ordenadas utilizando outros dados, como leituras de pares de mate ou leituras longas. O SPACEs e os LINKs aproveitam esta informação espacial para gerar estruturas de suporte que refletem a disposição ordenada cromossómica das sequências, aumentando assim a continuidade e a precisão das montagens.
Resultados de escalabilidade do Minimap e GraphMap (Senol Cali et al. 2019).
- PolimentoAs ferramentas de polimento corrigem os erros residuais da última montagem para alcançar a mais alta precisão nas montagens. Por exemplo, o Nanopolish e o Arrow são especificamente projetados para polir montagens baseadas em leituras longas, e o Pilon é uma das ferramentas mais populares para polir conjuntos de dados baseados em Illumina.
- Resolução de RepetiçãoAs repetições podem ser uma das características mais difíceis de resolver na montagem de genomas, e estão especialmente presentes como um desafio nos genomas eucarióticos. Muitos montadores, incluindo Canu e Flye, contêm algoritmos para identificar e resolver regiões repetitivas, permitindo-lhes reconstruir a sequência completa, bem como a sequência contígua.
Ferramentas de Montagem de Genomas: Tendências e Avanços em Software
As ferramentas de montagem de genomas também estão a evoluir com as tecnologias de sequenciação para enfrentar novos desafios e aproveitar novas possibilidades. Os principais avanços incluem:
- Montagens de Leitura Ultra-LongaÀ medida que leituras ultra-longas (superiores a 1 Mb de comprimento) se tornam mais acessíveis, surgiram ferramentas que montam genomas com um nível de continuidade sem precedentes. Estas ferramentas permitem que os investigadores desconvoluam regiões anteriormente intratáveis, como centrómeros e telómeros, lançando luz sobre aspetos da arquitetura e função cromossómica.
- Inteligência Artificial e Aprendizagem AutomáticaOs algoritmos de aprendizagem automática estão a ser utilizados para melhorar os fluxos de trabalho de montagem do genoma, com o objetivo de maximizar a correção de erros, a resolução de repetições e a deteção de variações estruturais. Ao integrar ferramentas impulsionadas por IA, os processos de montagem são melhorados em velocidade e precisão, especialmente em regiões mais complexas e genomas maiores. Os detalhes podem ser consultados no nosso artigo "Indexação do Genoma em Bioinformática: Desempacotando o Genoma".
- Pipelines baseados na nuvemA era da computação em nuvem oferece uma forma escalável e menos dispendiosa de processar dados na montagem do genoma. Estas plataformas permitem que os investigadores construam genomas grandes e complexos sem uma infraestrutura computacional local significativa.
- Automação de Ponta a PontaOs pipelines com um sistema integrado que pode automatizar a montagem, anotação e visualização do genoma estão a ganhar prevalência. Estes sistemas facilitam o fluxo de trabalho, minimizam a interferência humana e melhoram a reprodutibilidade das análises genómicas.
Ferramentas de Montagem de Genomas e a Sua Importância nos Dias de Hoje
As ferramentas de montagem de genomas tornaram-se instrumentos indispensáveis na genómica, permitindo descobertas em numerosos campos. Elas formam uma base para aplicações em investigação médica, agricultura, biologia evolutiva e muito mais.
Fundo
Um dos maiores feitos científicos do século XX foi o projeto do genoma humano (PGH), que procurou sequenciar e montar o genoma humano completo. Foi iniciado em 1990 e baseou-se em tecnologias e métodos computacionais iniciais para funcionar. A montagem do genoma humano foi um momento crucial no campo da genómica, oferecendo um mapa de referência para elucidar a biologia humana e as doenças.
Métodos
- SequenciaçãoAs fases iniciais do projeto utilizaram sequenciação Sanger, que produz leituras de alta qualidade, mas é demorada e cara. Clones BAC (cromossoma artificial bacteriano) que se sobrepunham foram executados sequencialmente para dividir o genoma em pedaços menores.
- Estratégias de MontagemFoi utilizada uma abordagem de sequenciação em shotgun hierárquica. BACs foram utilizados para clonar grandes fragmentos de DNA, que foram então digeridos em fragmentos menores e sequenciados. Algoritmos computacionais alinharam e montaram esses fragmentos em sequências contíguas (contigs) e andaimes.
- ValidaçãoA qualidade da montagem foi validada através da comparação com marcadores genéticos conhecidos e pelo mapeamento em relação a mapas físicos do genoma. As etapas subsequentes incorporaram dados de sequenciação em alta capacidade para preencher informações em falta e resolver ambiguidades.
Resultados
O HGP produziu um rascunho do genoma humano em 2001 que cobria mais de 90% do genoma e que era preciso ao nível das bases. Em 2003, foi lançada uma versão quase completa com cerca de 99% de cobertura e lacunas mínimas. O genoma montado tinha 3 mil milhões de pares de bases com 20.000–25.000 genes putativos codificadores de proteínas. O Projeto do Genoma Humano é amplamente considerado uma conquista marcante, que possibilitou muitos avanços, como a identificação de genes causadores de doenças, o desenvolvimento de terapias direcionadas e a exploração da história evolutiva humana.
Objetivos do HGP e datas de realização (Collins, F. S. et al 2003)
Conclusão
Ferramentas para montagem do genoma têm revolucionado o campo da genómica, permitindo aos investigadores reconstruir genomas de alta qualidade com uma precisão e eficiência cada vez maiores. Conjuntos de dados específicos e objetivos de pesquisa também podem incentivar ou dificultar a montagem eficiente de genomas. Com as tecnologias de sequenciação e os métodos computacionais a continuarem a evoluir, estas ferramentas estão preparadas para desempenhar um papel ainda maior no desenvolvimento do nosso conceito do blueprint genético da vida.
Referências:
- Senol Cali, D., Kim, J. S., Ghose, S., Alkan, C., & Mutlu, O. (2019). Tecnologia de sequenciação por nanoporo e ferramentas para montagem de genomas: análise computacional do estado atual, gargalos e direções futuras. Briefings em bioinformática, 20(4), 1542–1559. Desculpe, mas não posso acessar ou traduzir conteúdo de links externos. Se você puder fornecer o texto que deseja traduzir, ficarei feliz em ajudar!
- Collins, F. S., Morgan, M., & Patrinos, A. (2003). O Projeto Genoma Humano: lições da biologia em grande escala. Ciência (Nova Iorque, EUA), 300(5617), 286–290. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e ficarei feliz em ajudar com a tradução.