A montagem e anotação do genoma são componentes essenciais na compreensão do plano genético da vida. Montagem do genoma é a reconstrução da sequência completa do DNA de um organismo numa fita contínua e coerente, enquanto a anotação é o processo de atribuição de funções a essas sequências, identificando genes, elementos reguladores e outras características importantes. Essas sequências passam então por vários processos para extrair significado e insights dos dados, iluminando padrões na evolução humana, medicina e biotecnologia.
As tecnologias de sequenciação emergentes simplificaram rapidamente os processos de montagem e anotação do genoma, capacitando os cientistas a abordar genomas de complexidade sem precedentes. O uso extensivo de novas ferramentas computacionais e algoritmos permitiu que os cientistas montassem até mesmo genomas difíceis, como aqueles com alto conteúdo de repetições ou poliploides. Este progresso estabeleceu a montagem e anotação do genoma como meios essenciais para investigar uma variedade de arquiteturas genéticas, desde comunidades microbianas e genomas humanos até projetos de melhoramento de plantas. Neste artigo, exploramos os princípios, métodos e usos desses processos inter-relacionados, que oferecem uma promessa tremenda para a disciplina da genómica.
Para algum contexto, montagem do genoma é o processo de juntar o ADN do genoma de um organismo na sua sequência completa a partir de curtas sequências de ADN, chamadas leituras. Isto envolve alinhar milhões a biliões de leituras de sequenciação em sequências contínuas (contigs) e ordenar os contigs em andaimes que representam cromossomas. O tratamento não é uma tarefa computacional simples e requer algoritmos avançados para lidar com erros de sequenciação, regiões repetitivas e variações genómicas.
A anotação do genoma é o processo de identificação e rotulagem dos elementos funcionais de um genoma. Geralmente inclui o sequenciamento dos genomas, a previsão de genes e elementos não codificantes, e o estudo de elementos regulatórios, RNAs não codificantes e elementos repetitivos. Com a anotação, uma sequência que de outra forma seria inanimada transforma-se numa fonte de anotação sob demanda para biólogos interessados em obter e resumir informações funcionais sobre genes, redes regulatórias e relações evolutivas.
Serviço que pode interessar-lhe
Recurso
Anotação EstruturalIdentifica genes, exões, íntrons, sequências regulatórias e elementos repetitivos. Previsão de regiões codificadoras e anotação de elementos genómicos.
Anotação FuncionalAtribuição de funções biológicas para características identificadas por semelhança com genes, domínios de proteínas e vias conhecidas. A anotação funcional fornece uma visão adicional sobre a funcionalidade dos genes e os sistemas biológicos.
Ferramentas de Anotação EstruturalAUGUSTUS, GeneMark, etc. Estas ferramentas utilizam modelos probabilísticos para detetar genes a partir de alinhamentos de sequências genómicas.
Ferramentas de Anotação FuncionalEvite filtrar loci críticos, bases de dados como o UniProt e o GO (Gene Ontology) fornecem informações funcionais, enquanto ferramentas como o BLAST alinham sequências a genes conhecidos para anotação comparativa. A anotação funcional é ainda melhorada por uma ligação a redes metabólicas e regulatórias através de bases de dados de vias como o KEGG.
Pipelines AutomatizadosFerramentas como o MAKER e o Prokka foram concebidas para combinar várias ferramentas de previsão e alinhamento, proporcionando um fluxo de trabalho de anotação abrangente. Esses pipelines automatizados reduziram substancialmente o tempo de anotação de grandes genomas, permitindo que os investigadores se concentrem na análise e aplicações subsequentes.
Descrição do fluxo de trabalho BUSCO (Seppey, M. et al 2019).
Pré-processamento de dadosO controlo de qualidade, o corte e a correção de erros são realizados para garantir que apenas leituras de alta qualidade sejam utilizadas para a montagem. FastQC, Trimmomatic e Racon são algumas das outras ferramentas comumente usadas para limpar e polir dados de sequenciação e corrigir erros comuns, como erros de sequenciação e contaminantes de adaptadores.
AssembleiaContigs e andaimes são montados a partir de leituras, utilizando de novo, abordagens guiadas por referência ou híbridas. SPAdes, Flye e Canu são exemplos de montadores que utilizam algoritmos sofisticados para produzir sequências mais precisas e contíguas. Os contigs são ordenados e orientados em andaimes, e os erros restantes são corrigidos para aumentar a precisão a nível de base. Estas ferramentas de software, como LINKS, SSPACE e Pilon, preenchem lacunas na sequência e melhoram a qualidade da montagem.
Todas as abordagens sugerem que a qualidade da montagem é avaliada utilizando métricas como N50, pontuações de completude BUSCO e precisão de alinhamento. Estas estatísticas fornecem informações sobre a qualidade e a completude da montagem do genoma.
Máscara de RepetiçãoEle oculta todas as sequências repetitivas que podem gerar previsões falsas-positivas. Elementos repetitivos podem ser anotados e geridos utilizando ferramentas bem conhecidas, como o RepeatMasker e o Tandem Repeats Finder.
Predição de GenesFerramentas que preveem genes codificadores e não codificadores a partir de padrões de sequência, homologia ou modelos estatísticos. Ferramentas ab initio, como o AUGUSTUS, preveem genes a partir de características de sequência (como sequência codificadora e não codificadora), enquanto ferramentas baseadas em evidências utilizam dados transcriptómicos ou proteómicos.
Anotação FuncionalAlinhámos os genes preditos a bases de dados conhecidas para atribuir funções às características. Ferramentas de anotação funcional ajudam a compreender os genes e os seus papéis, proporcionando contexto aos dados genómicos em relação a vias e sistemas biológicos.
Revisão Manual de Alto ValorCuradoria manual por revisores de qualidade para quaisquer regiões ou genes de alta importância. Isto é especialmente importante para genes de interesse médico ou agrícola.
A montagem e anotação genómica são cruciais para localizar genes relacionados com doenças, decifrar mecanismos de doenças e conceber terapias personalizadas. Por exemplo, o sequenciamento e a anotação do genoma de micróbios patogénicos apoiam diagnósticos rápidos e o desenvolvimento de vacinas. Os genomas anotados servem como base para a identificação de associações gene-doença, biomarcadores diagnósticos e alvos terapêuticos.
Os genomas de culturas caracterizados têm estimulado a seleção de precisão ao mapear genes associados ao rendimento, resistência a doenças e tolerância ao stress. A montagem e anotação de alta confiança do genoma do trigo revelaram genes importantes para características como tolerância à seca e resistência a pragas. Essas descobertas revolucionaram os métodos agrícolas, permitindo que os cientistas criem variedades de culturas resilientes.
A montagem e anotação do genoma permitem análises comparativas que revelam relações evolutivas, eventos de especiação e características adaptativas. Genomas anotados de espécies em perigo informam estratégias de conservação ao atribuir atributos a genes específicos que promovem a diversidade genética e a resiliência. O estudo da evolução adaptativa e a compreensão das bases genéticas da adaptação permitem que os investigadores criem abordagens de conservação e gestão mais específicas.
Arabidopsis thaliana é um dos organismos modelo mais utilizados na biologia das plantas e um dos primeiros genomas de plantas a ser sequenciado e anotado. O seu genoma relativamente pequeno (∼135 Mb) e a sua estrutura simples tornaram-no um alvo modelo para os primeiros projetos de genoma. A montagem e anotação do Arabidopsis estabeleceram a base para a genómica das plantas e impulsionaram avanços tanto na genómica funcional como na melhoria de culturas.
SequenciaçãoO genoma foi sequenciado com Tecnologia de Sangere foi então refinado com alta capacidade de processamento. Uma combinação de estratégias de sequenciação foi utilizada para maximizar a cobertura e a precisão.
AssembleiaUm genoma inicial foi construído usando montagem de novo e depois melhorados através de várias rondas de polimento. Os genomas das plantas são estruturados através de ferramentas personalizadas para resolver regiões repetitivas e complexidades estruturais.
AnotaçãoA anotação estrutural resultou em cerca de 27.000 genes codificadores de proteínas. Anotação funcional A maioria dos genes foi atribuída a uma função através de métodos baseados em homologia, integrando dados de várias bases de dados funcionais.
O genoma anotado de Arabidopsis teve um impacto imenso na genómica vegetal, informando a investigação sobre a função dos genes, redes regulatórias e interações planta-ambiente. A sua anotação de alta qualidade também possibilitou estudos comparativos com espécies agrícolas que promovem a inovação agrícola. A anotação detalhada de Arabidopsis representa um ponto de referência para a exploração única de questões biológicas básicas na ciência das plantas.
Visão geral da montagem Col-PEK (Hou, X. et al, 2022).
Leituras ultra-longas e sequenciação de células únicas estão a permitir montagens a nível de cromossoma e anotação de alta resolução de genomas complexos. Estes desenvolvimentos podem potencialmente resolver regiões do genoma que eram anteriormente inacessíveis, como os centrómeros e telómeros. A combinação de novas tecnologias de sequenciação permite aos investigadores ultrapassar barreiras tradicionais à montagem e anotação do genoma.
Abordagens integradas que combinam a anotação do genoma com transcriptómica, proteómica, e epigenómica pode levar a uma visão mais holística da função e regulação dos genes. Esta estratégia integrativa é especialmente informativa para a investigação de processos biológicos dinâmicos e características complexas. Ao conectar a sequência ao fenótipo, a integração de dados multi-ômicos permite a interpretação funcional dos dados genómicos.
Serviço que pode interessar-lhe
Esses avanços em inteligência artificial estão a revolucionar a anotação, orientando a previsão de genes, a atribuição funcional e a correção de erros. Ferramentas alimentadas por IA também podem processar enormes conjuntos de dados a uma escala e velocidade sem precedentes — uma capacidade que pode acelerar significativamente a eficiência da anotação do genoma. Uma multitude de conjuntos de dados genómicos foi utilizada para treinar modelos de aprendizagem automática que podem servir como ferramentas preditivas facilitando as anotações de genomas atualmente sequenciados.
Iniciativas como o Projeto Earth BioGenome têm como objetivo sequenciar e fenotipar os genomas de todas as espécies eucarióticas. Esses esforços estão promovendo a colaboração, padronizando fluxos de trabalho e democratizando o acesso a dados genómicos. O surgimento de bases de dados genómicas partilhadas está acelerando a descoberta e permitindo a exploração da biodiversidade e das funções dos ecossistemas.
A montagem e anotação do genoma são uma das áreas mais importantes para muitas aplicações modernas de genómica, pois permitem que os investigadores compreendam o potencial funcional dentro do genoma a partir de sequências de DNA. Facilitados pela combinação de novas metodologias de sequenciação com aplicações de computação de alto desempenho, esses processos melhoraram drasticamente a nossa capacidade de entender a estrutura genética e suas implicações do ponto de vista biológico, médico e agrícola. A montagem e anotação do genoma são etapas críticas que sustentam a pesquisa genómica e continuarão a evoluir no campo, permitindo que a descoberta científica permaneça central para o nosso progresso na biologia e na abordagem de problemas globais. Iniciativas globais e tecnologias emergentes provavelmente expandirão em breve o alcance e a utilidade desses recursos genómicos críticos.
Referências: