Passos da Montagem do Genoma: Dos Leituras ao Genoma Completo

Porque as tecnologias de sequenciação geram sequências de ADN em partes, montagem do genoma é o processo de reconstruir um genoma completo a partir de sequências menores. Este é, em princípio, um problema simples, mas é essencial para recuperar informações genéticas desde os genomas microbianos mais primitivos até genomas de plantas e animais muito complexos. Os fluxos de trabalho modernos de montagem são construídos em torno da premissa de que devem funcionar com conjuntos de dados de alta fidelidade para lidar com, por exemplo, sequências repetitivas, erros de sequenciamento ou variabilidade no genoma.

Processo Geral de Montagem do Genoma Passos

Este é um processo iterativo, pelo qual os passos dados ao longo do caminho levam a um genoma melhorado em termos de qualidade e precisão. Consiste em pré-processamento de dados, montagem, scaffolding, polimento e validação. Não é trivial reconstruir o genoma a partir destes fragmentos devido a fatores como expressão diferente, erros e elementos repetitivos - todos estes são comuns nos dados genómicos, e assim os processos acima garantem que o genoma que construímos é correto e completo. As etapas demonstram um aspecto significativo de contiguação de montagens não contíguas em um único genoma biologicamente significativo.

Pré-processamento de Dados

Antes da análise detalhada, os dados de sequenciação bruta necessitam de preparação para montagem do genomaEste passo remove leituras de baixa qualidade, contaminantes e artefatos de sequenciação, a fim de manter a precisão da montagem. Recomenda-se que processe os seus dados adequadamente, caso contrário, poderá enfrentar erros ou vieses que podem propagar-se por toda a pipeline de montagem e afetar significativamente os resultados finais.

QC Controle de QualidadeO controlo de qualidade é feito utilizando o FastQC nas leituras de sequenciamento. As descobertas incluem contaminação por adaptadores, desvios na composição de bases e áreas de baixa qualidade. Os relatórios do FastQC fornecem os detalhes que permitem aplicar etapas de limpeza de dados iterativas para reter leituras de alta qualidade para montagem. O FastQC fornece resumos gráficos dos seus dados que lhe dirão, à primeira vista, se tem um problema com os seus dados.

Limpeza e Pré-filtragemO uso de ferramentas (Trimmomatic ou Cutadapt) para limpar leituras, removendo adaptadores, bases de baixa qualidade e leituras que são demasiado curtas. Se houver contaminação do adaptador, isso não proporcionará uma reconstrução precisa dos contigs, e bases de baixa qualidade podem até levar a erros na montagem. Mas, a montante, é precisamente aí que dados recentemente aparados e de alta qualidade são um excelente ponto de partida para uma montagem precisa. Além disso, estas ferramentas incluem uma opção para definir limiares de aparagem, permitindo que os investigadores utilizem as funcionalidades de aparagem de uma forma que se adapte à especificidade das suas linhas de pré-processamento.

Correção de Erros: Sequenciação de leitura longa As plataformas (PacBio, Nanopore) costumam produzir leituras erradas maiores devido a limitações da tecnologia de sequenciação subjacente. Ferramentas para correção de erros de leitura (por exemplo, Racon e Canu) corrigem as leituras através de um longo auto-alinhamento (as leituras alinham-se entre si) ou alinhando as leituras a leituras curtas de alta qualidade, ambas as quais melhoram substancialmente a qualidade da leitura para a montagem. O mais crítico neste processo é em organismos com genomas maiores, pois erros vazados em leituras longas, se não corrigidos, resultam em erros grosseiros que distorcem a leitura múltiplas vezes durante o mapeamento.

Assembleia

Durante a fase de montagem, as leituras são montadas em sequências contíguas mais longas, ou contigs. Este é o passo mais crucial na montagem do genoma e exige algoritmos capazes de lidar com este conjunto de dados complicado, ao mesmo tempo que preservam a integridade estrutural do genoma. Escolher a estratégia de montagem é uma das decisões críticas em qualquer pipeline de montagem de genoma, pois depende da plataforma de sequenciação, do tamanho do genoma e dos objetivos do projeto.

Montagem De Novo (Sem referência): Construir genomas do zero sem referência. Assemblagem de novo é necessário para organismos novos ou organismos suficientemente distantes dos genomas de referência disponíveis. Alguns exemplos são SPAdes (para leituras curtas) e Flye (para leituras longas) para montagem de novo. Estes permitem a reconstrução de sequências contíguas usando algoritmos baseados em grafos para evitar armadilhas de regiões repetitivas e erros de sequenciação. Montagem de novo é frequentemente o método preferido para a caracterização da diversidade microbiana ou descoberta de novas espécies.

Apoiado por FerramentasO genoma de referência existente fornece um andaime. A referência ajuda na montagem com base em: Leituras mapeadas para a referência. Este esquema é computacionalmente menos exigente e preciso para espécies estreitamente relacionadas. Os dados serão então processados utilizando ferramentas como BWA e Bowtie2 para alinhamento, seguidas de SAMtools para limpeza antes da montagem. Estudos orientados para re-sequenciamento podem usar montagem guiada por referência para determinar rapidamente as diferenças em relação a uma referência. Embora esta seja uma abordagem relativamente rápida e tenha um bom equilíbrio entre velocidade e precisão, pode ter dificuldades em lidar com sequências novas não encontradas na referência.

Montagem HíbridaAs leituras curtas e longas podem ser combinadas para obter a precisão das leituras curtas e a resolução estrutural das leituras longas. Gostaríamos de mencionar especificamente programas como MaSuRCA e Unicycler, que são utilizados para montagem híbrida e proporcionam uma melhor montagem de regiões complexas dos genomas. A montagem híbrida baseia-se em dados de múltiplas plataformas para produzir montagens altamente contíguas que se conformam à organização do genoma. Isto é especialmente valioso para resolver repetições e variantes estruturais que são difíceis de montar com qualquer tipo de dado único.

Estruturas de apoio e preenchimento intercalado com lacunas

A construção de andaimes conecta contigs em estruturas maiores usando informações adicionais, como leituras de pares de mate, leituras longas ou dados Hi-C. Este é um passo crucial na montagem de arranjos cromossómicos e genomas maiores. Os designs de andaimes envolvem a junção das montagens, preenchendo entre contigs vizinhos para investigar, o que constrói progressivamente a representação do genoma. Uma construção de andaimes adequada é necessária para montagens biologicamente significativas que reflitam a arquitetura do genoma.

Ferramentas de andaimesAs ferramentas de andaimes são, por exemplo, LINKS e SSPACE, que ordenam e orientam contigs utilizando informações de leituras de extremidade emparelhada e pares de leitura. Métodos derivados de Hi-C, como o 3D-DNA, produzem andaimes ao nível do cromossoma, dependendo da capacidade de capturar interações espaciais entre loci genómicos. Estes métodos revolucionaram a montagem de genomas grandes e permitiram que os investigadores produzissem montagens que abrangem cromossomas inteiros. Algoritmos de andaimes baseados em aprendizagem automática foram desenvolvidos recentemente para melhorar a colocação e orientação de contigs.

Ferramentas de AnáliseHardware e software ferramentas de bioinformática usados para avaliar se os contigs foram montados corretamente. Estas ferramentas são capazes de aumentar a completude da montagem ao aproveitar dados de sequenciação adicionais para preencher as lacunas de sequência, ampliando ainda mais a sua utilidade. Por exemplo, um algoritmo chamado PBJelly utiliza leituras longas para preencher as lacunas, colocando corretamente regiões repetitivas ou estruturalmente complexas na montagem. No cerne do processo de montagem, o preenchimento de lacunas é importante para produzir genomas de alta qualidade para análises genómicas que dependem de alta resolução.

Polimento

A polimento garante uma alta precisão base do genoma montado. Esta fase tem um papel muito mais proeminente em montagens geradas a partir de plataformas de leitura longa, com um erro bruto relativamente alto, do que em qualquer uma das outras plataformas. Refinar as chamadas de bases e corrigir erros residuais durante esta etapa de polimento pode melhorar significativamente a usabilidade dos genomas e os seus usos subsequentes, por exemplo, para previsão de genes e chamada de variantes.

Ferramentas de polimentoNanopolish e Medaka para dados da Oxford Nanopore, Arrow e Racon para montagens PacBio. As anomalias são corrigidas com a ajuda de ferramentas de correção de erros residuais e os critérios de alinhamento aumentam o acordo ao realinhar as leituras de volta à montagem e verificar diferenças. Os algoritmos de polimento estão a evoluir para variedades mais sofisticadas, utilizando modelos capazes de detectar erros menores que a correção padrão geralmente ignora.

Polimento iterativoPara conjuntos de dados muito grandes ou propensos a erros, obter um genoma altamente completo pode exigir várias rondas de polimento. Isso permite um polimento iterativo que corrige todos, exceto os erros mais subtis, e produz montagens que são adequadas para tarefas de alta precisão, como a chamada de variantes e a previsão de genes. A adoção de abordagens iterativas permite o uso de trabalhos que cobrem regiões complexas para pipelines baseados em consenso, incluindo elementos repetidos ou áreas de GC elevado.

Decomposição e estimativa da qualidade

A validação envolve verificar a qualidade, completude e correção do genoma montado. Fazer isso tem o benefício adicional de garantir que a sua montagem atenda aos critérios de controlo de qualidade a nível de projeto, o que será útil para análises posteriores. Executar um processo de validação não só aumenta a confiança na montagem, mas também destaca elementos dentro da montagem que necessitam de melhorias. Este é o limiar final antes que o genoma sequenciado possa ser utilizado em investigação biológica.

Estatísticas de assembleiaN50 (definido pela localidade), L50 e tamanhos de genoma. Estas estatísticas fornecem uma medida quantitativa do desempenho da montagem, mas também uma visão sobre a fragmentação e a completude da montagem. Valores grandes de N50 significam que as montagens são repetidas com frequência e os valores de L50 dão uma estimativa de como essa montagem está distribuída.

Integralidade: Usando ferramentas como o BUSCO para procurar genes conservados na sua montagem. Um score BUSCO > 90 denota que uma proporção significativa do conteúdo genómico esperado está presente na montagem, designando-a como um ótimo recurso para estudos funcionais. As avaliações de completude permitem a identificação de áreas mal amostradas ou ausentes que poderiam beneficiar de uma atenção mais próxima.

A ver o fio de respostas

Montagem do genoma é um problema complexo caracterizado por múltiplos obstáculos biológicos e técnicos. Isso é amplificado em genomas grandes e complexos, onde sequências repetitivas, heterozigose e erros de sequenciação complicam a tarefa de reconstrução. Abordar isso ajuda a possibilitar a geração de montagens de melhor qualidade que refletem mais precisamente o genoma em investigação.

Regiões altamente repetitivasEstas áreas podem levar a montagens fragmentadas ou a montagens incorretas. Sequenciação de leitura longa Tecnologias como PacBio e Nanopore têm poder de resolução suficiente para abranger repetições. A montagem híbrida, que combina leituras longas e curtas, também apresenta um bom desempenho na resolução de regiões repetitivas. No entanto, existe outra classe de algoritmos de montagem que se baseia no processamento de gráficos de fragmentos de leitura e se concentra em lidar com repetições de sequência.

HeterozigosidadeA variação entre cromossomos homólogos resulta em desafios particulares para a montagem (especialmente em organismos diploides e poliploides). Montadores e ferramentas de fase que resolvem haplótipos lidam com isso separando sequências homólogas de haplótipos antes de as reconstruir com precisão. A modelagem entre espécies pode ser especialmente relevante para explorar a mistura em populações ou para elucidar a história evolutiva em espécies poliploides.

Tamanho dos DadosUm grande conjunto de dados pode ser dispendioso em termos de memória e requer uma elevada capacidade de processamento. Essas exigências estão a ser cada vez mais atendidas, através de plataformas baseadas na nuvem e algoritmos paralelizados. Estas abordagens ajudam os investigadores em genómica a gerir o custo computacional das pessoas que constroem genomas grandes. Além disso, montagens leves trouxeram a montagem do genoma ao alcance de laboratórios com capacidade computacional disponível.

Significant TGS analysis software development.Fluxograma recomendado para montagem e anotação do genoma (Jung, H. et al 2024).

Estudo de caso: Montagem do Genoma Humano

Fundo

O genoma humano - com os seus ~3 mil milhões de pares de bases e grandes regiões repetitivas - exigiu estratégias inovadoras e recursos extensivos para a sua montagem. Este projeto preparou o terreno que alimentaria a genómica moderna e transformaria a nossa compreensão da biologia humana e das doenças. O seu sucesso demonstrou que sequenciar e montar genomas complexos era viável - e foi visto como um precursor importante para outros avanços na área.

Métodos

Montagem hierárquica com sequenciação por shotgunO genoma foi dividido em grandes fragmentos e, em seguida, sequenciado separadamente utilizando a tecnologia de cromossoma artificial bacteriano (BAC). Numa segunda estratégia para reduzir esta complexidade e aumentar a precisão da montagem, Smits et al. sorriem ao focar em partes menores e mais controláveis do genoma. Esta estratégia hierárquica proporcionou uma solução para enfrentar os problemas colocados pela genómica de alta complexidade e repetitiva de novo.

Andaimes e AcabamentosOs contigs foram ligados em sequências mais longas utilizando mapas de alta resolução e scaffolding computacional. Dados de sequenciação suplementares e curadoria manual foram utilizados para preencher lacunas dentro de um genoma sem lacunas. Tal montagem genómica avançada, que resultou destes métodos computacionais e manuais avançados, resultou no genoma montado mais completo e de mais alta qualidade.

Resultados

Um genoma de referência de alta qualidade gerado por este projeto foi agora melhorado através da utilização de tecnologias superiores de sequenciação e montagem. O genoma de referência humano continua a ser uma estrutura essencial para os milhares de estudos biomédicos que exploram a variação genética, os mecanismos da doença e os processos evolutivos. Também facilitou a invenção de novas técnicas e ferramentas de montagem que impulsionaram a genómica. O sucesso do projeto do Genoma Humano levou ao estabelecimento de inúmeras iniciativas internacionais direcionadas para a sequenciação de outros genomas complexos.

Application of referred genome assembly stepsPassos de montagem do genoma (Byrska-Bishop, M. et al 2024).

Conclusão

Montagem do genoma - a reconstrução de genomas inteiros - é uma ferramenta genómica fundamental que é um pré-requisito para a biologia que fundamenta a exploração biológica. É esta combinação de montagens de alta qualidade produzidas por um pipeline estruturado e sequenciadores de alto rendimento que permite que estas aplicações sejam realizadas. A investigação sobre a montagem do genoma será central para a compreensão desta complexidade e, à medida que o campo avança, o desenvolvimento da montagem do genoma estará sempre próximo da vanguarda na abordagem de questões críticas nas ciências da vida. A montagem do genoma provavelmente se tornará cada vez mais precisa, rápida e acessível do que nunca com cada nova onda de progresso técnico e, ao mesmo tempo, encontrará novas áreas de aplicação na ciência e na medicina.

Referências:

  1. Jung, H., Ventura, T., Chung, J. S. et al (2020). Doze passos rápidos para a montagem e anotação do genoma na sala de aula. PLoS biologia computacional, 16(11), e1008325. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça o conteúdo que deseja traduzir.
  2. Byrska-Bishop, M., Evani, U. S., Zhao, X. et al (2022). Sequenciação do genoma completo com alta cobertura da coorte expandida do Projeto 1000 Genomas, incluindo 602 trios. Célula, 185(18), 3426–3440.e19. Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e terei prazer em ajudar com a tradução.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo