A maioria das plantas e animais possui genomas complexos com várias características, como tamanhos grandes, alta heterozigosidade e poliploidia. Os organismos são geneticamente diversos, e as regiões genómicas heterozigóticas podem ser grandes contribuintes para a variação fenotípica, e essa complexidade representa um desafio para a montagem do genoma. O aumento no número de conjuntos de cromossomas aumenta a quantidade total de DNA no genoma e aumenta a complexidade do genoma ao adicionar alelos ou outras formas de genes. Embora a maioria das sequências entre cromossomas emparelhados seja idêntica, essas diferenças proporcionam a amplitude da variação biológica dentro das espécies. O uso de mapas de haplótipos de alta qualidade do genoma pode proporcionar uma melhor compreensão da história genética de uma cultura ou animal, explorar a domesticação de espécies e ajudar na pesquisa de melhoria de espécies.
A haplotipagem de poliploides requer, em princípio, sequências parentais ou, se não estiverem disponíveis, pelo menos as sequências das suas espécies ancestrais evolutivas/especies ancestrais próximas (para comparação e distinção entre diferentes subgenomas) e para ajudar a montá-las numa fase posterior.
Atualmente, os investigadores utilizam quatro principais estratégias de montagem de genomas haploides.
A primeira estratégia é o método de agrupamento Trio (sequenciação Illumina e PacBio) que se baseia em sequências parentais para uma montagem eficiente. Este método é simples e fácil de implementar, mas é suscetível a classificações erradas de leituras quando os pais são heterozigóticos.
A segunda estratégia é o método DipAsm (sequenciação HiFi e Hi-C) que não depende de sequências parentais e combina dados de Hi-C para produzir haplótipos a nível de cromossoma, mas é suscetível a classificações erradas de regiões altamente heterozigóticas.
A terceira estratégia é o método Hifiasm, que utiliza eficazmente leituras HiFi para gerar haplótipos de alta qualidade, que, em comparação com o DipAsm, não só mantém a vantagem de não depender dos pais para a montagem, mas também reduz a dependência de dados Hi-C, simplifica o processo, alcança a montagem e a fase em um clique, e pode integrar dados Hi-C para ajudar na montagem, tornando-se gradualmente o método preferido para montagem de alta qualidade.
A quarta estratégia é a estratégia de montagem de genomas poliploides, utilizando o PolyGembler ou nPhase. O primeiro requer a disponibilização de dados de linhagem e o segundo requer a disponibilização de sequências de genomas de referência.
Callithrix jacchus é um pequeno mamífero primata e um modelo animal comum para pesquisa médica. Usando dados de sequenciação de leitura longa e curta de famílias de marmosets, a equipa de pesquisa montou de forma independente dois conjuntos de genomas haplotípicos de alta qualidade de cada progenitor, que foram publicados em Natureza.
Padrões de paisagem de heterozigosidade entre os dois genomas haploides de marmoset (Yang C) et al.., 2021)
Foi descoberto que os marmosets têm uma sequência extra específica do sexo masculino no cromossoma Y em comparação com os humanos. Além disso, as mutações na linha germinativa do pai eram duas vezes mais altas do que as da mãe, possivelmente relacionadas ao número diferente de divisões celulares replicativas que ocorrem durante a formação de oócitos e espermatozoides. A comparação das sequências genómicas parentais renova a compreensão das diferenças na informação genética entre os pais e demonstra a base genética dos marmosets como uma espécie modelo médica, analisando genes relacionados com o crescimento e desenvolvimento. As descobertas relacionadas podem ser aplicadas a estudos em várias direções, como doenças neurodegenerativas, biologia reprodutiva e doenças infecciosas farmacocinéticas.
A Universidade Cornell, em colaboração com o Centro de Pesquisa de Recursos Genéticos Vegetais do USDA-ARS, obteve dados genómicos de alta qualidade através de sequenciação de leituras curtas e longas da maçã cultivada.Malus domestica cv. Gala) e as suas principais espécies selvagens ancestrais, M. sieversii e M. sylvestrisforam obtidos genomas haplotípicos de maçã de alta qualidade.
Notavelmente, genomas resolvidos por haplótipos podem ajudar a esclarecer a origem do genoma da maçã e facilitar o estudo da expressão específica de alelos durante o desenvolvimento das espécies. Vários genes relacionados ao desenvolvimento e qualidade do fruto da maçã foram identificados neste artigo, e o processo de evolução populacional das maçãs foi revelado através da análise da estrutura populacional e da história populacional. Este estudo fornece dados genómicos precisos e valiosos para um estudo aprofundado da domesticação da maçã e do melhoramento genético.
Os cromossomos homólogos de espécies diploides ou poliploides têm uma alta semelhança, e o processo de montagem geralmente não consegue distinguir bem os cromossomos homólogos devido ao comprimento curto das leituras. Mas a tecnologia de sequenciação de longas leituras pode ajudar-nos a identificar as diferenças subtis entre os cromossomos homólogos, e em combinação com a montagem de outros dados de sequenciação, podemos completar a haplotipagem de diploides, identificar as diferenças cromossómicas em relação aos pais e revelar ainda mais a origem antiga e o processo de domesticação da espécie.
A CD Genomics fornece Sequenciação do Genoma Completo baseado na Illumina e Sequenciação SMRT da PacBio plataformas, permitindo acesso rápido a genomas haplotípicos de alta qualidade, explicando mais poder genético ausente e melhorando a precisão da previsão genómica.
Referências: