Montagem de Genoma De Novo: Como Realizá-la e Como Aplicá-la

Montagem de novo, em contraste com a montagem guiada por referência que depende do alinhamento de leituras de sequenciamento a um genoma existente, é mais independente e, portanto, não está limitada por preconceitos de referência. É especialmente importante para organismos não modelo, genomas grandes e complexos, ou para a deteção de sequências novas ou variações estruturais. Apesar do seu potencial transformador, a montagem de genoma de novo representa um desafio técnico complexo, exigindo uma profundidade de sequenciamento elevada, juntamente com recursos computacionais significativos e algoritmos avançados para fornecer resultados de qualidade. Esta abordagem é amplamente aplicável, com implicações em áreas como a ciência da biodiversidade, biologia evolutiva e medicina de precisão, estabelecendo-a como uma ferramenta essencial da genómica contemporânea. A montagem de genoma de novo oferece uma flexibilidade única, permitindo o estudo de organismos para os quais não existem informações genómicas. Este processo complexo envolve computação sofisticada e recursos extensivos.

Conceitos-chave e Desafios

  • Sequências RepetitivasAs repetições, que constituem uma grande fração de muitos genomas, estão entre os desafios mais difíceis na montagem de genomas. Quimeras são formadas a partir de múltiplas leituras que abrangem várias regiões de homologia, que muitas vezes são sujeitas a pré-processamento, como o corte, levando a ambiguidades na colocação das leituras e, em última análise, a lacunas e erros na montagem. Por exemplo, elementos transponíveis podem causar montagens fragmentadas em genomas eucarióticos. Tecnologias capazes de sequenciamento de leituras longas serão críticas para enfrentar este desafio, uma vez que podem atravessar estas áreas. Ferramentas computacionais que reconhecem e mascaram sequências repetitivas também podem aumentar a precisão da montagem. Ferramentas como o RepeatMasker são comumente usadas para identificar regiões repetitivas, e aplicações como o Tandem Repeat Finder ajudam na anotação de tais sequências.
  • Heterozigosidade e PoliploidiaMuitas espécies são altamente heterozigóticas ou poliploides, tornando difícil diferenciar e construir os alelos existentes. A complexidade é especialmente pronunciada em plantas, onde a poliploidia é comum. Para resolver essas características genómicas, são utilizados algoritmos sofisticados que conseguem resolver alelos ou sequências homeólogas sem perder a sua singularidade. Montadores como o HiCanu são projetados para lidar com tais complexidades, utilizando dados de leituras longas para desentrelaçar informações de haplótipos.
  • Erros de sequenciaçãoAs diferentes tecnologias de sequenciamento apresentam perfis de erros distintos; as tecnologias de leitura longa, como PacBio e Oxford Nanopore, tendem a ter taxas de erro mais elevadas do que as plataformas de leitura curta. Esses erros podem levar a montagens ou chamadas falsas. Ferramentas de correção de erros para o refinamento de montagens de leitura curta ou conjuntos de dados de leitura longa são vitais para obter montagens de alta qualidade. Além disso, estratégias de montagem híbrida utilizam as vantagens de leituras curtas e longas para aliviar os problemas acima.
  • Dados e AlgoritmosA montagem de genomas de novo envolve o manuseio de grandes quantidades de dados e a execução de algoritmos muito complexos. Para abordar estas limitações, recursos de computação de alto desempenho, como a execução de fluxos de trabalho paralelizados e até mesmo o uso de plataformas de computação em nuvem, estão a tornar-se mais comuns. O uso de memória e algoritmos continua a ser uma área de pesquisa ativa. Uma abordagem é minimizar a computação enquanto se mantém a qualidade da montagem, e vários montadores exemplificam esta estratégia.

Assembling a haploid or homozygous genome.Estratégia para montagem de perto de telómero a telómero (Li H, Durbin R., 2024).

Tecnologias e Métodos

Plataformas de Sequenciação

Plataformas de leitura longa, por exemplo, PacBio e Oxford Nanopore, geram leituras que se estendem de dezenas a centenas de quilobases, permitindo a resolução de elementos repetitivos e grandes variações estruturais. Essas tecnologias são essenciais para genomas complexos ou poliploides. No entanto, os avanços contínuos em química e algoritmos de chamada de bases estão a reduzir a diferença em precisão, apesar de taxas de erro mais elevadas. As leituras PacBio HiFi, por exemplo, agora combinam alta extensão de leitura e alta precisão e são uma preferência para muitas montagens.

Algoritmos de Montagem

  • Sobreposição-Layout-Consenso (OLC): Especificamente concebido para funcionar bem com dados de leituras longas. Encontra sobreposições entre as leituras, constrói um gráfico de disposição e deriva sequências de consenso. A montagem de grandes genomas usando Overlap-Layout-Consensus (OLC) foi pioneira por ferramentas como Canu e FALCON. O genotipagem OLC é mais precisa do que GFA para regiões genómicas complexas.
  • Grafos de De Bruijn (DBG)Os métodos DBG oferecem alta eficiência computacional e funcionam melhor com conjuntos de dados gerados a partir de leituras de sequenciamento curtas. As abordagens DBG tokenizam as leituras em k-mers e constroem um grafo em que os caminhos são sequências genómicas. No entanto, regiões repetitivas podem levar a estruturas de grafo complicadas que requerem algoritmos especializados para serem resolvidas. Os montadores baseados em DBG mais comuns para genomas pequenos a médios incluem Velvet e SOAP denovo.
  • Montadores Híbridos ModernosAo combinar os benefícios tanto do OLC como do DBG, os montadores híbridos elevam os fluxos de trabalho de montagem para o próximo nível, utilizando conjuntos de dados de leituras curtas e longas. Esta estratégia proporciona alta contiguidade, completude e precisão, apesar de genomas difíceis. Técnicas de montagem híbrida, como as empregues pelo SPAdes e Flye, podem ser poderosas, especialmente no caso de genomas com alto conteúdo de repetições ou variação estrutural complexa.

Overlap graph assembly.Assemblagem com gráficos de sobreposição (Li H, Durbin R. et al, 2024).

Passos para a Montagem de Genoma De Novo

O procedimento de montagem de genoma de novo consiste numa série de etapas interconectadas, onde cada passo é um contributo importante para a geração de uma montagem final de alta qualidade. Deve-se prestar atenção a cada uma destas etapas, desde a preparação dos dados até à validação, para resultar em resultados credíveis e precisos.

Preparação de Dados

De longe, o mais importante é a qualidade dos dados utilizados para a montagem — sem dados de alta qualidade, qualquer projeto de montagem está condenado. Os passos de pré-processamento incluem:

  • Controlo de qualidade, filtragem e aparo Os dados de sequenciação bruta são verificados quanto à qualidade utilizando ferramentas como o FastQC, e as leituras de baixa qualidade, adaptadores e contaminantes são identificados. Ferramentas de corte, como o Trimmomatic e o Cutadapt, removem partes indesejadas para garantir que apenas leituras de alta confiança sejam utilizadas na montagem. Este passo é crítico para remover regiões de baixa complexidade propensas a gerar ruído na montagem.

Construção de Montagem

A montagem do genoma é um processo iterativo:

  • Geração de ContigsAs leituras curtas são montadas em contigs, que são as sequências contínuas mais longas, ou trechos, que podem ser produzidos sem lacunas. Para alcançar a maior precisão e continuidade possível, pode utilizar ferramentas especializadas como o Canu (leituras longas) e o Velvet (leituras curtas) que são usadas para este fim.
  • AndaimesOs contigs são unidos em andaimes com base em dados de extremidades pareadas ou leituras longas. A construção de andaimes adiciona informações espaciais que ordenam e orientam corretamente os contigs. O SSPACE e o BESST são frequentemente utilizados para ajudar a melhorar a precisão estrutural da montagem.
  • Fecho de LacunasAs lacunas nas estruturas de suporte são preenchidas utilizando dados de sequenciamento adicionais ou algoritmos computacionais como o GapCloser para melhorar a continuidade. A segmentação com preenchimentos de lacunas precisos garante uma maior completude, que contém sequências menos frequentes.

Validação de Montagem

A validação da montagem assegura a completude e a correção:

  • MétricasN50 para avaliar a contiguidade da montagem e BUSCO para avaliar a completude utilizando conjuntos conservados de ortólogos de cópia única. Estas métricas servem como indicadores quantitativos da qualidade da montagem e ajudam a refinar ainda mais o processo de montagem.
  • Ferramentas de ValidaçãoA QUAST produz avaliações de qualidade detalhadas, identificando montagens incorretas e oportunidades de melhoria. Usando a ferramenta REAPR, são detetadas inconsistências estruturais, que requerem refinamento para gerar uma montagem mais fiável.

Direcções Futuras e Aplicações

A montagem de genomas de novo tem uma variedade de aplicações, desde a investigação básica até as ciências aplicadas, e ainda mais desenvolvimentos futuros irão impulsionar o seu potencial.

Aplicações

  • Organismos Não ModeloFornecer contexto genómico para espécies sem genomas de referência através de montagens de novo. Estas ferramentas são inestimáveis para o estudo da biodiversidade, a descoberta de novos genes e a investigação de adaptações evolutivas. Por exemplo, ao reconstruir o genoma de organismos extremófilos, descobrimos vias únicas a estes organismos que lhes permitem sobreviver em condições extremas.
  • Biologia da ConservaçãoAs montagens do genoma orientam a conservação ao elucidar a diversidade genética, a estrutura populacional e os níveis de consanguinidade em espécies ameaçadas. Esta informação é essencial para uma boa gestão e programas de reprodução. E o seu estudo de assemblagens de espécies, como o panda gigante, ofereceu perspetivas importantes sobre a sua história evolutiva e processos adaptativos.
  • MedicinaFatores de virulência novos, mecanismos de resistência a medicamentos e outras descobertas evolutivas e epidemiológicas são possibilitados pelas montagens de novo de patógenos. O sequenciamento do SARS-CoV-2, por exemplo, foi crucial para o desenvolvimento de vacinas e para o rastreamento de surtos. As montagens de novo de genomas individuais também beneficiam a medicina personalizada ao revelar variações estruturais e mutações únicas.

Direcções Futuras

No entanto, existem algoritmos de computador que só podem funcionar com dados de sequenciação de leitura longa e estes conjuntos de dados serão necessários porque nos permitirão resolver regiões complexas no genoma, como os centrómeros e telómeros. Estas melhorias provavelmente atualizarão a definição de completude de montagem.

Aprendizagem automática: A adição de algoritmos de aprendizagem automática em pipelines de montagem fornece correções para erros e também resulta em mais variações repetidas e variantes estruturais, proporcionando maior precisão e eficiência. Ferramentas derivadas de IA também estão a acelerar a criação de algoritmos adaptativos personalizados para tarefas genómicas específicas. Para uma compreensão mais aprofundada dos algoritmos de aprendizagem automática, consulte o nosso artigo "Indexação Genómica em Bioinformática: Desempacotando o Genoma".

  • Genómica em Resolução de Célula ÚnicaGenotipagem para montagens resolvidas por haplótipos: O sequenciamento de célula única tem o potencial de fornecer a resolução necessária para identificar montagens resolvidas por haplótipos e pode abrir caminho para a compreensão da heterogeneidade genética e dos processos evolutivos em populações. Isto é especialmente relevante na investigação do câncer, dado que a heterogeneidade intra-tumoral é conhecida por ser de grande importância na evolução da doença.
  • Padronização e PartilhaA introdução de fluxos de trabalho padronizados e bases de dados de acesso aberto irá melhorar a reprodutibilidade e promover a colaboração, maximizando as contribuições dos genomas assemblados. O Projeto BioGenome da Terra e esforços semelhantes esperam criar uma biblioteca de referência completa e curada para os genomas de todas as espécies eucarióticas conhecidas, contendo num só lugar sequências semelhantes necessárias para o estudo desta diversidade e a sua relação com qualquer habitat ou nicho dado.

Estudo de Caso: A Montagem do Genoma do Panda Gigante

Fundo

O panda gigante, uma espécie icónica, tem sido o foco de esforços de conservação devido ao seu estado de endangered e à sua importância ecológica. Compreender a sua composição genética é crucial para desenhar estratégias de conservação eficazes, avaliar a diversidade genética e estudar as suas adaptações únicas, como uma dieta dominada por bambu. No entanto, o genoma do panda gigante apresentou desafios únicos devido ao seu alto conteúdo de repetições e baixa variabilidade genética. Aqui está o caso para a aplicação de Montagem de genoma de novo na montagem do genoma do panda gigante.

Métodos

Para alcançar uma montagem de alta qualidade do genoma do panda gigante, os investigadores utilizaram os seguintes passos:

  • Tecnologias de Sequenciação: Foi utilizada uma abordagem de sequenciação híbrida. A sequenciação de leituras curtas com Illumina forneceu leituras de alta precisão, enquanto a sequenciação de leituras longas da PacBio resolveu regiões repetitivas e permitiu a montagem de estruturas genómicas complexas.
  • Algoritmos de Montagem: A montagem de novo foi realizada utilizando o montador SOAPdenovo, otimizado para genomas grandes com alto conteúdo de repetições. Ferramentas adicionais de escoramento, incluindo SSPACE, melhoraram a continuidade e a precisão da montagem. O RepeatMasker foi utilizado para anotar e mascarar elementos repetitivos, enquanto o Pilon refinou a montagem para corrigir erros a nível de bases.
  • Validação e Anotação: A qualidade da montagem foi avaliada utilizando métricas como N50 e pontuações BUSCO. Ferramentas de predição de genes, incluindo AUGUSTUS e MAKER, foram aplicadas para anotar sequências codificantes e elementos regulatórios. Análises genómicas comparativas com espécies relacionadas validaram ainda mais a montagem.

Genome landscape of giant pandaCaracterização da paisagem do genoma do panda gigante (Fan, H. et al, 2019).

Resultados

A montagem de novo do genoma do panda gigante alcançou um N50 de contig de aproximadamente 200 kb e um N50 de scaffold de mais de 1 Mb, representando um elevado nível de continuidade e completude. As principais descobertas incluíram:

  • Identificação de genes relacionados com a digestão de bambu, como aqueles envolvidos na degradação da celulose.
  • Perspectivas sobre a base genética da sua baixa taxa de reprodução e adaptações do sistema imunitário.
  • Mapeamento de alta resolução da diversidade genética dentro de populações selvagens e cativas, informando programas de conservação.

Conclusão

A montagem de genomas de novo é um ponto central da genómica moderna e continua a permitir investigações da arquitetura genética em uma ampla variedade de organismos. Esta tecnologia transformou campos que vão desde a biologia evolutiva até a medicina de precisão, e abordou desafios como sequências repetitivas, heterozigose e carga computacional. A montagem de novo continua a alargar os seus horizontes com melhorias tecnológicas e computacionais. No entanto, à medida que nos deslocamos para uma genómica mais prevalente e disseminada, o conhecimento adquirido a partir da montagem de genomas de novo será fundamental para resolver muitos dos desafios que o mundo enfrenta hoje e para expandir a nossa compreensão da própria vida.

Referências:

  1. Li, H., & Durbin, R. (2024). Montagem do genoma na era telómero-a-telómero. Revisões da Natureza. Genética, 25(9), 658–670. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça o conteúdo que deseja traduzir.
  2. Fan, H., Wu, Q., Wei, F., Yang, F., Ng, B. L., & Hu, Y. (2019). Montagem do genoma a nível de cromossoma para o panda gigante fornece novas perspetivas sobre a evolução dos cromossomas dos Carnívoros. Biologia do genoma, 20(1), 267. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e eu ficarei feliz em ajudar com a tradução.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo