O que é o Projeto Genoma Humano (PGH)?

O Projeto Genoma Humano (PGH) foi iniciado em 1990 para alcançar dois objetivos centrais: 1) analisar a estrutura do DNA humano e 2) localizar todos os genes humanos. Recentemente, conseguimos alcançar com sucesso o primeiro objetivo de obter uma sequência completa e contígua. Sequência de DNA do genoma humanoNo entanto, alcançar o segundo objetivo tem sido muito mais complexo do que inicialmente antecipado, embora tenhamos adquirido uma compreensão muito melhor da localização e função de milhares de genes humanos.

Cientistas de vários países revisitaram os objetivos do Projeto Genoma Humano e exploraram o progresso, os desafios e as respostas aos quatro esforços específicos para completar a anotação dos genes humanos nos próximos anos:

(1) Completar uma lista de genes codificadores de proteínas e os seus vários isoformas.

(2) Conclusão de uma lista completa de genes de RNA, incluindo vários comprimentos e tipos.

(3) Identificação e ligação de doenças específicas associadas a genes e variantes genéticas de importância médica.

(4) Aprimoramento das técnicas necessárias para realizar a anotação de genes humanos.

Progressos e Desafios na Anotação de Genes Codificadores de Proteínas

A anotação de genes codificadores de proteínas tem sido um ponto focal no âmbito do Projeto Genoma Humano. Após a elucidação das sequências genéticas, a comunidade científica está progressivamente a convergir para um consenso sobre a identidade destes genes, embora o processo de anotação continue a ser um trabalho em progresso.

Inicialmente estimados entre 50.000 a 100.000 genes na década de 1980, estas estimativas têm diminuído consistentemente ao longo do tempo. A primeira publicação do genoma humano reduziu a estimativa para 30.000 a 40.000, seguida de uma nova redução para 25.000, e a contagem atual é de pouco menos de 20.000 genes. Um recente lançamento de base de dados, exemplificado pela versão 41 do GENCODE com 19.370 genes, sublinha este contínuo aprimoramento. Esses ajustes são o resultado de múltiplos avanços, abrangendo revisões manuais meticulosas, melhorias nos métodos e análises de anotação computacional, e a crescente geração de dados de transcrição experimental de alta qualidadeApesar da diminuição geral no número de genes, a identificação contínua de novos genes codificadores de proteínas e isoformas alternativas de genes conhecidos persiste.

Um esforço colaborativo notável, conhecido como MANE (Anotação Correspondente do NCBI e EMBL-EBI, Ensembl/GENCODE e RefSeq), introduziu recentemente um conjunto de dados quase abrangente com uma isoforma para cada gene codificador de proteínas. Esta iniciativa alcançou consenso entre dois dos principais projetos de anotação, RefSeq e GENCODE. O MANE 1.0 compreende 19.062 loci genéticos, encapsulando 95% do número total de loci codificadores de proteínas nos principais catálogos genéticos humanos.

Anotação de Genes de RNA Não Codificante

Genes de RNA não codificante (ncRNAs) constituem uma categoria de moléculas de RNA transcritas a partir de DNA, desprovidas de capacidade de codificação de proteínas, mas cruciais para funções celulares. A identificação de ncRNAs funcionais representa um desafio significativo na anotação, uma vez que numerosas sequências de RNA transcritas podem carecer de relevância funcional sob diversas condições celulares e ambientais. O termo "genes" é reservado para RNAs com funcionalidades estabelecidas, restringindo assim o âmbito dos esforços de anotação. Atualmente, a maioria dos esforços de anotação centra-se em catalogar exaustivamente transcritos de ncRNA, desconsiderando a sua classificação funcional.

Um desafio inerente à anotação de ncRNAs reside na atribuição de rótulos funcionais. Em contraste com os genes codificadores de proteínas, onde existe uma ampla evidência funcional a priori e métodos computacionais robustos baseados em informações de sequência primária facilitam a previsão de funções, o cenário é marcadamente diferente para os ncRNAs. A nossa compreensão destas moléculas é limitada, e métodos validados para prever as suas funções com base apenas na sequência estão em falta. Consequentemente, esforços recentes em anotação de genes ncRNA visam a delinear os vários tipos de evidência que os suportam, como os níveis de expressão específicos de tecidos, mesmo quando os seus papéis funcionais permanecem elusivos. A ênfase está na caracterização de diversas facetas da evidência, reconhecendo a complexidade da funcionalidade do RNA não codificante.

Anotação Genética em Contexto Clínico

A anotação dos genes humanos tem implicações cruciais para o diagnóstico e tratamento de distúrbios genéticos. Dentro do abrangente catálogo OMIM, mais de 5.000 genes e uma multitude de variantes estão ligados a distúrbios monogénicos e suscetibilidade a doenças, exemplificado pelos mais de 34.000 variantes do gene BRCA1 documentadas na base de dados BRCA Exchange. Notavelmente, 2.228 dessas variantes são designadas como patogénicas.

A precisão e a abrangência dos modelos de genes e transcritos desempenham um papel fundamental na avaliação do potencial patogénico das variantes. Ferramentas como PolyPhen, Revel e Variant Effect Predictor (VEP) dependem de transcritos de quadros de leitura abertos previstos para determinar os efeitos das variantes. Além disso, a precisão da anotação das fronteiras dos exões é essencial para o desenho de decoys de oligonucleotídeos e primers de PCR utilizados em análises diagnósticas clínicas. sequenciação de captura direcionadaMesmo no contexto do sequenciamento do genoma completo (WGS) para fins de diagnóstico, exões não anotados são tipicamente excluídos da consideração pelos clínicos.

O desafio predominante neste domínio gira em torno do estabelecimento de um padrão clínico. Presentemente, os laboratórios clínicos operam predominantemente com as montagens humanas GRCh37 (hg19), utilizando transcritos do RefSeq como referência para genes associados a doenças, muitas vezes com base em relatórios da literatura. No entanto, esta abordagem enfrenta dois problemas significativos: primeiro, nem todos os transcritos do RefSeq se alinham perfeitamente com o genoma de referência humano GRCh37, e segundo, os transcritos escolhidos podem não necessariamente incorporar as características cruciais para o diagnóstico clínico ou representar os transcritos mais pertinentes para a interpretação. O desenvolvimento de um padrão clínico robusto é imperativo para aumentar a precisão e a fiabilidade das anotações genéticas no âmbito clínico.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo