3 de março de 2021

NOVA IORQUE – O Consórcio de Referência do Pangenoma Humano (HPRC) está a assinalar um ano de progresso ao divulgar dados de 30 genomas já montados.
Os genomas, disponíveis através de repositórios nos EUA, Europa e Japão, incluem dados das leituras HiFi da Pacific Biosciences, das leituras ultralongas da Oxford Nanopore Technologies e do mapeamento óptico da Bionano Genomics. Os dados Hi-C para todas as 30 amostras geradas com os kits Omni-C da Dovetail Genomics serão divulgados este mês. Além disso, dados de sequenciação de fita de molde de célula única para faseamento de haplótipos estão disponíveis para sete amostras, assim como dados de NGS da Illumina de 60 progenitores utilizados no faseamento em trio. O grupo planeia também incluir 12 genomas adicionais de colaboradores da Universidade de Washington em St. Louis, do Instituto Nacional de Pesquisa do Genoma Humano e da Universidade da Califórnia em Santa Cruz.
Na reunião virtual deste ano sobre Avanços em Biologia Genómica e Tecnologia, Karen Miga, uma cientista de investigação na UCSC, disse que o consórcio estava a utilizar estes dados para criar "montagens faseadas de qualidade incrivelmente elevada" utilizando o Hifiasm, um novo algoritmo de montagem de novo publicado no mês passado na Nature Methods por investigadores liderados por Heng Li da Universidade de Harvard. "Encontrámos um sucesso tremendo não só em continuidade ou N50 e blocos de fase, mas também na qualidade destas montagens", disse Miga.
Um genoma de referência tinha 519 contigs com um NG50 de 43 Mb, um NG50 de blocos de fase de 18 Mb, uma pontuação Q54 e uma sensibilidade de SNP heterozigótico de 99,3 por cento. No geral, as montagens diploides dos 30 genomas tinham um N50 entre 18 e 59 Mb e pontuações Q entre 50 e 56, disse ela.
Usando estes conjuntos, o consórcio está a desenvolver novos métodos para automatizar protocolos de controlo de qualidade e andaimes, acrescentou Miga. Ela também forneceu uma prévia dos métodos que estarão a chegar ao projeto do pan-genoma, que estão a ser desenvolvidos como parte do Consórcio Telómero-a-Telómero (T2T).
Lançado em 2019 com 29,5 milhões de dólares em financiamento do Instituto Nacional de Pesquisa do Genoma Humano (NHGRI), o projeto do pan-genoma procura apresentar uma representação mais completa dos genomas humanos, capturando a diversidade de variantes que existem na população. Entre os seus objetivos está a produção de centenas de montagens de genomas humanos de alta qualidade, cobrindo cada cromossoma de telómero a telómero.
Os seus objetivos e participantes muitas vezes sobrepõem-se com os do Consórcio T2T, que a Miga co-lidera com o bioinformático do NHGRI Adam Phillippy.
Encontrar formas de mapear e montar regiões do genoma que até agora têm sido intratáveis, como os centrómeros e regiões altamente repetitivas, tem sido um objetivo chave destes projetos. Miga observou que o HPRC depende de avanços recentes na tecnologia de sequenciação de leitura longa, nomeadamente as leituras HiFi da PacBio e as leituras ultra-longas da Oxford Nanopore Technologies.
"A nossa equipa está a alcançar uma cobertura de 35X a 40X de leituras HiFi superiores a Q20 na faixa de 18 a 20 kb para este projeto em particular," disse ela. A saída HiFi para todas as amostras, exceto uma, ultrapassou 100 Gb.
O consórcio também está a obter leituras de 100 kb ou mais com uma cobertura de aproximadamente 6X a partir das leituras ultra-longas da Oxford Nanopore — cerca de 10 por cento de todas as leituras de nanopore; cobertura Hi-C de 60X, e mapas ópticos BioNano com um N50 de cerca de 250 kb a uma cobertura de cerca de 100X.
A liberação de dados inclui 60 conjuntos de dados parentais de NGS da Illumina utilizados na faseamento de trios, com uma cobertura de 30X utilizando sequenciação de extremidades pareadas de 150 bp.
Os dados podem ser acedidos através de repositórios como o Centro Nacional de Informação Biotecnológica, o Arquivo Europeu de Nucleotídeos (ENA) do Instituto Europeu de Bioinformática e o Banco de Dados de DNA do Japão (DDBJ).
Miga também partilhou progressos do consórcio T2T. "Muitas das tecnologias que temos vindo a desenvolver são aquelas que serão integradas" no trabalho sobre o pan-genoma humano, disse ela. Em setembro de 2020, o grupo lançou a sequência completa do genoma de um mola hidatiforme que não apresentava contigs não localizados ou não colocados. Tinha uma pontuação Q70 e introduziu entre 100 Mb e 190 Mb de nova sequência, em comparação com o genoma de referência GRCh38.
Além das montagens de cromossomas utilizando dados HiFi e leituras ultra-longas da Oxford Nanopore, o consórcio está a produzir os primeiros mapas de alta resolução de todos os braços curtos dos cromossomas acrocêntricos, bem como de todas as regiões pericêntricas e centroméricas do genoma. A hibridização in situ por fluorescência está a ser integrada como "um método ortogonal agradável para mostrar o número de cópias", disse Miga. Os membros do grupo também estão a fazer progressos na mapeação de rearranjos genómicos e duplicações segmentares, identificando novas repetições e até encontrando genes enterrados em regiões centroméricas.
"Não chegámos ainda à linha de chegada," avisou Miga. O genoma T2T recentemente lançado é essencialmente haploide e existe uma "verdadeira barreira tecnológica para alcançar o próximo marco de um genoma T2T diploide," disse ela, sem mencionar a dificuldade de fazer centenas desses para o esforço do pan-genoma humano.
Mais informações em: https://www.genomeweb.com/sequencing/human-pangenome-reference-consortium-releases-data-30-genomes#.YEr_Jp0zY2w