Visão Geral da Montagem do Genoma

A montagem do genoma é uma ferramenta essencial na contemporaneidade. genómica, permitindo que os cientistas construam sequências genómicas inteiras a partir dos dados brutos de sequenciação. É fundamental para compreender processos biológicos, parentesco evolutivo e, além de fornecer insights sobre os componentes genéticos das doenças. Uma montagem genómica quase completa serve como um mapa detalhado do plano genético de um organismo, permitindo várias aplicações, desde a biologia evolutiva até a medicina de precisão. A montagem do genoma é um processo complexo e desafiador, apesar do seu poder transformador, uma vez que a estrutura dos genomas muitas vezes envolve sequências repetitivas, longas regiões intergénicas e erros de sequenciação. Esses desenvolvimentos tornam a montagem do genoma não apenas uma conquista técnica, mas um instrumento crítico na decifração dos segredos da vida.

O que é a Montagem do Genoma

A montagem do genoma é o processo de juntar milhões ou bilhões de fragmentos curtos de DNA, conhecidos como leituras, em sequências contíguas que representam o genoma do organismo. Isto é semelhante a montar um enorme quebra-cabeças sem uma imagem de referência completa. O objetivo final da montagem do genoma é uma reconstrução precisa e sem lacunas do genoma com resolução a nível cromossómico, se possível. Esta tarefa é complicada por características biológicas (tamanho do genoma; conteúdo de repetições; heterozigose) e por constrangimentos técnicos impostos pelas plataformas de sequenciação.

Montagem de genoma de novo

Na montagem do genoma, no seu cerne, requer uma compreensão dos seus blocos de construção básicos e abordagens:

  • Contig e Scaffold: Um contig é, de forma geral, um segmento de DNA reconstruído a partir de leituras de sequenciamento sobrepostas. Os contigs são os componentes do processo de montagem do genoma. Os contigs são unidos em scaffolds (com lacunas que representam regiões não resolvidas) utilizando dados adicionais de pares em sequenciamento de pares, leituras longas ou mapas ópticos. Os scaffolds conferem um grau de estrutura de ordem superior, aproximando-se da arquitetura cromossómica.
  • De novo vs. Montagem guiada por referência: A montagem de genomas de novo constrói genomas inteiramente a partir de leituras de sequenciamento brutas, sem depender de informações genómicas prévias. Este método é particularmente valioso para estudar organismos sem um genoma de referência disponível ou para explorar todo o espectro da diversidade genética em espécies não-modelo. A montagem de novo utiliza algoritmos computacionais para juntar leituras sobrepostas em sequências contíguas. Embora forneça uma visão imparcial da estrutura de um genoma, é intensiva em termos computacionais e requer dados de sequenciamento de alta qualidade e alta cobertura para minimizar lacunas e erros. Tecnologias como PacBio e Oxford Nanopore, que geram leituras longas, são especialmente vantajosas para a montagem de novo devido à sua capacidade de abranger regiões repetitivas e resolver estruturas genómicas complexas. A montagem de genoma guiada por referência, por outro lado, alinha as leituras de sequenciação a um genoma de referência existente, usando-o como um andaime para montar o genoma alvo. Este método é significativamente menos exigente em termos computacionais e mais rápido do que a montagem de novo, tornando-o adequado para organismos intimamente relacionados a uma espécie de referência bem caracterizada. A montagem guiada por referência destaca-se na reconstrução precisa de regiões genómicas conhecidas e na identificação de variantes em pequena escala, como polimorfismos de nucleótido único (SNPs). No entanto, a sua dependência do genoma de referência introduz viéses, podendo perder sequências novas, grandes variações estruturais ou características genómicas únicas do organismo alvo. Ambos os métodos têm aplicações específicas com base nos objetivos da pesquisa e no organismo em estudo. Por exemplo, a montagem de novo é crítica em estudos de biodiversidade onde espécies novas são analisadas, enquanto a montagem guiada por referência é frequentemente utilizada em pesquisas clínicas para estudar genomas humanos e suas variantes. Abordagens híbridas, que combinam elementos de ambos os métodos, também estão a emergir como ferramentas poderosas. Ao integrar estratégias de novo e guiadas por referência, os investigadores podem alcançar montagens de alta resolução que capturam tanto características genómicas conservadas como novas.

Desafios e Soluções

A montagem de sequências de DNA teve os seus próprios desafios; novas técnicas foram desenvolvidas para resolver esses problemas:

  • Sequências Repetitivas: As repetições dificultam a montagem devido às múltiplas mapeações possíveis das leituras. Essas repetições, que são prevalentes em genomas eucarióticos, podem resultar em montagens fragmentadas. As plataformas de sequenciação de leituras longas (como as disponíveis comercialmente da PacBio e Oxford Nanopore) permitem abranger estas regiões e até resolver repetições mais complexas. Essa precisão na montagem é complementada por ferramentas computacionais que anotam e mascaram sequências repetitivas.

Repetitive content of human genome.O conteúdo repetitivo cria um desafio na montagem do genoma, como ilustrado pelo conteúdo repetitivo do genoma humano (Rice ES et al., 2018).

  • Gestão de Erros e Complexidade: Leituras longas são frequentemente afetadas por erros de sequenciação que se propagam durante o processo de montagem. Montagens altamente precisas dependem de ferramentas de correção pós-montagem (por exemplo, Pilon para polimento de leituras curtas, Racon para correção de leituras longas). Além disso, os recursos computacionais brutos necessários para montar um genoma não são triviais e estão carregados com soluções a nível de infraestrutura — abrangendo tanto uma dependência crescente da nuvem para fornecer essas capacidades, como algoritmos paralelizados que podem enfrentar esses desafios de frente.
  • Aumento das Publicações de Genomas de Vertebrados: Como resultado destas novas tecnologias, o número de genomas de vertebrados publicados aumentou significativamente na última década. Este aumento reflete a capacidade aprimorada de sequenciar e montar genomas complexos, contribuindo para avanços significativos em áreas como a genómica comparativa, a biologia evolutiva e a conservação da biodiversidade.

Status of vertebrate genome assemblies.Linha do tempo e estatísticas das montagens do genoma de vertebrados depositadas no Genbank do Centro Nacional de Informação Biotecnológica (Rice ES et al., 2018).

Tecnologias e Algoritmos para Sequenciação de DNA

Ferramentas de montagem de genoma

As tecnologias de sequenciação e os algoritmos computacionais desempenham um papel crítico em qualquer projeto de montagem de genoma. Estas ferramentas desenvolveram-se rapidamente para uma capacidade sem precedentes de lidar até mesmo com genomas complexos.

As tecnologias de sequenciação podem ser classificadas de acordo com o comprimento da leitura, precisão e rendimento:

Geralmente, as plataformas de Sequenciamento de segunda geração (SGS) lideram nesta categoria (leituras curtas de 50–300 bp) que oferecem alta capacidade de produção, custo-efetividade e qualidade superior. IlluminaLeituras curtas proporcionam uma profundidade de cobertura por design, o que é essencial para corrigir erros e resolver características genómicas em pequena escala. De facto, o seu comprimento curto limita a cobertura de regiões repetitivas ou de estrutura complexa.

A sequenciação de terceira geração (TGS) inclui tecnologias como PacBio e Oxford Nanopore que produzem leituras longas, muitas vezes de dezenas de quilobases ou mais. Essas leituras são essenciais para resolver regiões repetitivas, caracterizar variações estruturais e produzir montagens genómicas de maior continuidade. Embora as suas taxas de erro sejam geralmente mais altas do que as da sequenciação de segunda geração (SGS), a química da TGS e a correção de erros computacional foram altamente desenvolvidas para melhorar a qualidade dos dados.

A combinação de SGS e TGS capta os benefícios tanto das leituras curtas como das longas: as leituras curtas garantem precisão básica ao nível da base, enquanto as leituras longas aumentam a continuidade e a resolução estrutural. Ao superar as limitações de cada tecnologia, as abordagens híbridas tornaram-se a norma para a construção de genomas complexos.

O processo de conversão do DNA genómico de entrada em bibliotecas de sequenciação é necessariamente dependente da plataforma.

Sequencing library methodVisão geral da arquitetura da biblioteca de sequenciamento, saída e resultados de montagem de três tecnologias de sequenciamento de alto rendimento (Rice ES et al., 2018).

Montagem de genoma em bioinformática

Os algoritmos reconstroem sequências utilizando estruturas baseadas em grafos e modelos estatísticos na montagem do genoma:

  • Métodos baseados em grafos: abordagens baseadas em Grafos de De Bruijn (DBG) fragmentam as leituras em k-mers, criando um grafo com k-mers como nós e caminhos de reconstrução de sequências como potenciais sequências genómicas. O DBG é computacionalmente eficiente e bem otimizado para dados de leituras curtas, mas teve um desempenho fraco em ambientes com alta taxa de erro e repetições. Os métodos Overlap-Layout-Consensus (OLC), no entanto, são destinados a leituras longas, alinhamentos de sequências completas para encontrar sobreposições e criar layouts. O OLC é bom para genomas complexos, mas é mais intensivo em termos computacionais.
  • Ferramentas Integradas: Abordagens Integradas Assemblers modernos como SPAdes e MaSuRCA combinam aspectos das estruturas DBG e OLC que proporcionam um desempenho ótimo em conjuntos de dados híbridos. Estas ferramentas aproveitam os benefícios tanto das tecnologias de leituras curtas como das de leituras longas, resolvendo as fraquezas encontradas em qualquer uma das tecnologias para criar montagens de alta qualidade.
  • Passos na Montagem do Genoma: A montagem do genoma requer a passagem por várias etapas bem estabelecidas que devem ser realizadas com sucesso para obter resultados ótimos. Estas envolvem pré-processamento, montagem e avaliação da qualidade de classificação.

Pré-processamento de Dados

A etapa de pré-processamento garante que os nossos dados de entrada estão limpos e prontos para serem montados em primeiro lugar: Para ajudar a manter o seu trabalho e garantir uma saída de análise de sequência de alta qualidade, por exemplo, o fastQC ajudará a avaliar a qualidade das leituras de sequenciamento, regiões de baixa qualidade, contaminação por adaptadores e outros artefatos. Note que a limpeza destes dados melhora o desempenho da montagem a jusante.

Há informação sobre o seu segundo. Corte e Filtragem: Estas ferramentas, incluindo o Trimmomatic e o Cutadapt, por exemplo, removem sequências de adaptadores, bem como bases de baixa qualidade das leituras. A filtragem limita o impacto de contaminantes e erros de sequenciação, com apenas leituras de alta confiança representadas na montagem.

A normalização da leitura ajusta a cobertura em todo o genoma, o que pode ajudar a reduzir os preconceitos introduzidos por regiões sobre-representadas. Esta etapa é crítica para limitar os encargos computacionais em conjuntos de dados de alta cobertura.

Passos da montagem do genoma

O processo de montagem do núcleo consiste em um ciclo iterativo:

Este processo de construção de contigs, mais ou menos, envolve organizar todas as leituras em contigs que são as sequências de melhor palpite da mesma região genómica sem requerer dados externos. Existem ferramentas especializadas para esta fase (por exemplo, Canu para leituras longas ou Velvet para leituras curtas).

  • Estruturas de Apoio e Preenchimento de Lacunas: As estruturas de apoio montam contigs em estruturas mais extensas, utilizando dados de leitura longa ou de pares de mate, e software de preenchimento de lacunas, como o GapCloser, tenta preencher sequências em falta. Estes passos também conduzem a conclusões de montagem de nível superior e a uma maior precisão nas montagens.
  • Correção de Erros: Antes de a montagem estar completa, ela é submetida a ferramentas de correção de erros específicas do local, como Pilon ou Racon, que corrigem erros de base e resolvem montagens incorretas através dessas ferramentas. Para garantir bons resultados em tarefas subsequentes, esta etapa é vital.

Avaliação da Qualidade

A avaliação da qualidade confirma que a montagem é confiável e completa:

Métricas: N50 é uma métrica comum que descreve a contiguidade da montagem; BUSCO avalia a completude verificando a presença de genes conservados.

Métricas de Validação: O QUAST produz relatórios detalhados de estatísticas de montagem, destacando erros, montagens incorretas e áreas que necessitam de melhorias adicionais. Em vez disso, o REAPR visa identificar inconsistências estruturais e destacar onde os montadores podem melhorar.

Anotação do Genoma

A montagem do genoma é apenas o primeiro passo para entender as funções biológicas codificadas dentro de um genoma. A anotação do genoma envolve a identificação de genes, elementos regulatórios e regiões funcionais dentro das sequências montadas. Este passo transforma sequências brutas em uma estrutura biologicamente significativa:

  • Anotação EstruturalEnvolve a identificação de características genómicas, como genes codificadores de proteínas, RNAs não codificadores, promotores e intrões. Ferramentas como AUGUSTUS e MAKER automatizam a previsão de modelos de genes, integrando dados de sequência com evidências do transcriptoma e sequências de proteínas conhecidas.
  • Anotação FuncionalAtribui funções biológicas a características genómicas, ligando-as a bases de dados existentes como GO (Gene Ontology), KEGG (Kyoto Encyclopedia of Genes and Genomes) e UniProt. Ferramentas como InterProScan e BLAST são frequentemente utilizadas para alinhar proteínas preditas a sequências anotadas, fornecendo informações sobre as suas potenciais funções.
  • Desafios na AnotaçãoA precisão da anotação depende da qualidade da montagem e da disponibilidade de dados de referência. Regiões mal montadas, como aquelas que contêm repetições ou lacunas, podem levar a anotações incompletas ou incorretas. Para organismos não modelo, a falta de conjuntos de dados de referência bem curados apresenta desafios adicionais.
  • Automação e Curadoria ManualAs pipelines automatizadas agilizam o processo de anotação, muitas vezes requerem curadoria manual para verificar previsões e resolver discrepâncias. Plataformas colaborativas como

Estudo de Caso da Montagem do Genoma

Fundo

O genoma do trigo é um dos genomas de plantas mais complexos devido ao seu grande tamanho, à sua natureza hexaploide (três conjuntos homólogos de cromossomas) e ao seu elevado conteúdo de repetições. O trigo é uma cultura alimentar essencial em todo o mundo, tornando a sua compreensão genética crítica para melhorar os rendimentos agrícolas, a resistência a doenças e a resiliência climática. Decifrar o seu genoma representou um desafio significativo para os investigadores, exigindo uma combinação de tecnologias de sequenciação avançadas e abordagens computacionais.

Métodos

Para enfrentar esta complexidade, os investigadores empregaram:

  • Tecnologias de SequenciaçãoFoi utilizada uma abordagem híbrida, combinando sequenciação de segunda geração (leituras curtas da Illumina) com sequenciação de terceira geração (leituras longas da PacBio e Oxford Nanopore). Mapeamento óptico e separação de cromossomas por fluxo também foram empregados para ancorar andaimes e resolver estruturas cromossómicas.
  • Algoritmos de MontagemFerramentas como o Canu e o software de scaffolding Hi-C foram utilizadas para gerar montagens altamente contíguas. O método do gráfico de De Bruijn facilitou a montagem de regiões repetitivas.
  • ValidaçãoA montagem foi validada utilizando o BUSCO para medir a completude dos genes e métodos baseados em alinhamento para confirmar a precisão.

Resultados

A montagem alcançou um genoma de referência de alta qualidade para o trigo, cobrindo mais de 90% do genoma com uma resolução sem precedentes. Genes-chave associados à melhoria do rendimento, resistência a doenças (por exemplo, resistência à ferrugem) e tolerância ao stress ambiental foram identificados. Esta montagem do genoma possibilitou estratégias de melhoramento de precisão, melhorando a resiliência do trigo aos desafios climáticos globais.

Wheat genome assemblyGenoma do trigo decifrado, montado e ordenado (Consórcio Internacional de Sequenciamento do Genoma do Trigo (IWGSC) 2018).

Aplicações e Direções Futuras

 Aplicações

A montagem do genoma tem aplicações em várias áreas:

  • Organismos Modelo: Montagens de alta qualidade para organismos modelo como ratos e zebrafish sustentam investigações genéticas, de desenvolvimento e comparativas. Estas montagens servem como padrões de referência para permitir a anotação precisa e a exploração funcional de genes.
  • Organismos não-modelo: As montagens de genomas de novo forneceram informações sobre biodiversidade, adaptação e interações ecológicas. Como exemplo, a montagem dos genomas de culturas economicamente importantes como o trigo e o arroz permitiu a identificação de características para melhorar o rendimento e a tolerância ao stress. Dados sobre o genoma de uma espécie em perigo, por exemplo, permitem uma maior compreensão da diversidade genética e informam programas de reprodução para conservação.
  • Investigação Clínica: As montagens genómicas têm aplicações importantes na medicina de precisão, permitindo a identificação de fatores genéticos que contribuem para doenças e o potencial para o desenvolvimento de terapias direcionadas. As montagens genómicas são utilizadas na genómica do cancro para a identificação de variações estruturais e mutações que impulsionam a tumorigenese. Por exemplo, as montagens de patógenos como o SARS-CoV-2 aceleraram tanto o desenvolvimento de vacinas como o rastreio epidemiológico.

Direcções Futuras

Tendências e tecnologias emergentes prometem um assemblagem do genoma ainda mais sofisticada:

  • Leituras ultra-longas: Tecnologias que geram leituras superiores a 1 Mb permitem a montagem de regiões anteriormente intratáveis do genoma, incluindo centrómeros e telómeros. Prometem montagens a nível de cromossoma para genomas complexos.
  • Montagem Potenciada por IA: Os algoritmos de aprendizagem automática que ajudam na correção de erros, resolução de repetições e deteção de variações estruturais.
  • Rastreamento da Heterogeneidade Genética: Métodos de célula única obtêm informações importantes sobre a heterogeneidade genética, mas permitem uma reconstrução específica de haplótipos, afetando estudos de genética populacional e promovendo estudos de DNA paleo/antigo e medicina personalizada.
  • Padronização e Partilha de Dados: Repositórios de dados abertos e pipelines padronizados que permitem aos colaboradores carregar os seus dados podem ajudar a facilitar a reprodutibilidade e a colaboração na comunidade científica.

Conclusão

A montagem do genoma é um recurso fundamental na biologia contemporânea que fornece informações incomparáveis sobre a estrutura, função e evolução dos genomas. Tecnologias de sequenciação, algoritmos e sistemas computacionais melhorados rapidamente tornaram a montagem do genoma um processo mais eficiente e acessível. Espera-se que as técnicas de montagem de genoma de nova geração se ampliem em alcance e impacto devido a inovações como a sequenciação de leituras ultra-longas, metodologias baseadas em IA e metodologias de montagem de células únicas. Esses avanços influenciarão ainda mais disciplinas que vão desde a medicina à agricultura e à conservação, impulsionando um progresso transformador na nossa capacidade de entender e utilizar o plano da vida.

Referências:

  1. Rice, E. S., & Green, R. E. (2019). Novas Abordagens para Montagem e Estruturação do Genoma. Revisão Anual de Biosciências Animais, 7, 17–40. Desculpe, não posso acessar links ou conteúdos externos. No entanto, posso ajudar a traduzir texto que você fornecer.
  2. Consórcio Internacional de Sequenciamento do Genoma do Trigo (IWGSC) (2018). Aumentando os limites na pesquisa e melhoramento do trigo utilizando um genoma de referência totalmente anotado. Ciência (Nova Iorque, EUA), 361(6403), eaar7191. Desculpe, mas não posso acessar ou traduzir conteúdo de links externos. Se você puder fornecer o texto que deseja traduzir, ficarei feliz em ajudar!
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo