Resumo das Bases de Dados Comuns para Sequenciação de Nova Geração
O Papel da Base de Dados de Sequenciação NGS
À luz dos avanços acelerados na tecnologia, especialmente a evolução meteórica no domínio da bioinformática, a importância de Sequenciação de Nova Geração (NGS) As tecnologias como um instrumento essencial na investigação em ciências da vida aumentaram significativamente. Distinguido pela sua alta capacidade de processamento, eficiência e precisão infalível, o NGS oferece perspetivas incomparáveis na exploração das complexidades das ciências da vida. Dado este contexto, o papel das bases de dados de sequências NGS tem assumido cada vez mais um papel central. Estes repositórios amadureceram para se tornarem um pilar insubstituível no campo das ciências da vida, moldando e expandindo progressivamente a nossa compreensão abrangente do complexo tecido que são os sistemas biológicos.
A base de dados NGS serve como um repositório abrangente que integra uma vasta extensão de dados de sequenciação. Dentro dos seus limites, amalgama os esforços diligentes e as conquistas de pesquisa de cientistas de todo o mundo, fornecendo aos investigadores um rico e inestimável tesouro de recursos de dados experimentais. Facilitado pelo NGS Através de uma base de dados de sequenciamento, os investigadores obtêm acesso fácil a dados de sequenciamento de diversos espécimes biológicos, permitindo assim desvendar os princípios biológicos subjacentes e os mistérios ocultos nos dados.
Análise de sequenciação de próxima geração. a Funções de software e bases de dados utilizadas para a análise de NGS. b Fluxo de trabalho da análise de variantes genómicas. (Andrés López-Cortés et al., 2020)
O papel das bases de dados de NGS manifesta-se em várias dimensões:
Armazenamento e Gestão de Dados:
NGS as bases de dados de sequenciamento possuem capacidades robustas para armazenamento e gestão de dados. Elas organizam proficientemente vastas quantidades de dados de sequenciação de uma forma eficiente e estruturada, oferecendo uma multitude de ferramentas de consulta e recuperação convenientes que permitem aos investigadores localizar rapidamente os dados desejados. Além disso, estas bases de dados apresentam mecanismos de backup e recuperação de dados, garantindo a segurança e fiabilidade da informação.
Análise e Exploração de Dados:
Além de fornecer abundantes recursos de dados, NGS as bases de dados estão equipadas com potentes ferramentas de análise de dados. Os investigadores utilizam estas ferramentas para realizar análises e explorações aprofundadas de dados de sequenciação, revelando fenómenos biológicos como variações genéticas e regulação da expressão. Estas informações fornecem bases científicas para o diagnóstico de doenças, desenvolvimento de medicamentos e terapias personalizadas.
Partilha e Troca de Dados:
A partilha e troca de dados são fundamentais no domínio de NGS bases de dados, atuando como plataformas expansivas para esforços colaborativos entre investigadores. Aqui, os cientistas têm a oportunidade de contribuir com o seu próprio dados de sequenciação, facilitando assim a disseminação dos seus resultados de investigação entre os pares da comunidade científica. Simultaneamente, os investigadores têm acesso a dados contribuídos por outros, alargando efetivamente os seus horizontes de investigação e promovendo a colaboração interdisciplinar. Este modelo colaborativo de partilha e troca de dados é fundamental para impulsionar os rápidos avanços na investigação em ciências da vida, promovendo a colaboração académica e a inovação.
Apoio e Assistência à Decisão:
NGS As bases de dados desempenham um papel crucial no apoio e assistência à decisão. Elas fornecem aos responsáveis pela política, clínicos e investigadores suporte de dados sobre mecanismos de doenças, desenvolvimento de medicamentos e eficácia de tratamentos, ajudando-os a tomar decisões mais informadas e racionais do ponto de vista científico.
Em resumo, as bases de dados de sequenciação NGS são indispensáveis na investigação em ciências da vida. Elas não apenas oferecem vastos recursos de dados de sequenciação, mas também englobam várias funcionalidades, como armazenamento e gestão de dados, análise e exploração de dados, partilha e intercâmbio de dados, bem como suporte e assistência à decisão. Com o contínuo avanço e aperfeiçoamento da tecnologia NGS, a importância das bases de dados de sequenciação NGS será ainda mais acentuada, contribuindo de forma significativa para o progresso e inovação da investigação em ciências da vida. Este artigo tem como objetivo delinear e elucidar sistematicamente os recursos de bases de dados comumente utilizados na interpretação de relatórios de sequenciação NGS.
Pode estar interessado em
Bases de Dados Populacionais
Base de Dados RefSeqGene
A Base de Dados RefSeqGene, acessível em http://www.ncbi.nlm.nih.gov/refseq/rsg, é um repositório disponível publicamente que alberga sequências de nucleotídeos (DNA, RNA) juntamente com os seus correspondentes produtos proteicos. Concebida e desenvolvida pelo Centro Nacional de Informação Biotecnológica (NCBI) em 2000, mantém a responsabilidade pela curadoria e manutenção deste recurso inestimável.
Distinguido pela sua diversidade taxonómica, não redundância, anotações meticulosas e integração sem costuras, o banco de dados RefSeq emerge como uma pedra angular na investigação molecular. Atendendo a um espectro de inquéritos científicos que abrangem genómica, análises de expressão génica, anotações funcionais e uma miríade de outras investigações, apresenta um compêndio de sequências de referência provenientes de uma vasta gama de organismos. Este âmbito abrangente inclui, embora não se limite a, bactérias, arqueias, plantas, animais, fungos e vírus.
RefSeq é um repositório abrangente que alberga sequências de referência que abrangem genomas, transcritos e proteínas. Dentro da base de dados RefSeq, são implementadas metodologias de gestão rigorosas para manter a fidelidade das sequências genéticas. Cada sequência é acompanhada de anotações meticulosas, fornecendo informações detalhadas sobre as posições dos genes, limites de exões/intrões, isoformas de splicing alternativo, modificações pós-traducionais e domínios funcionais. Baseando-se numa variedade diversificada de recursos, incluindo observações empíricas, previsões computacionais e citações académicas, o RefSeq integra dados para oferecer anotações fiáveis para sequências de referência.
Atualizações regulares à base de dados RefSeq incorporam de forma contínua novas informações genómicas, transcriptómicas e proteómicas, garantindo aos investigadores acesso às sequências de referência mais atuais. Esta base de dados dinâmica promove a interligação com outros recursos do NCBI, como o GenBank e o PubMed, permitindo aos utilizadores explorar informações suplementares e conjuntos de dados associados com maior profundidade.
Base de Dados do Navegador do Genoma UCSC
A Base de Dados do UCSC Genome Browser (https://genome.ucsc.edu/) é um dos recursos mais amplamente utilizados no campo da biologia. Estabelecida e mantida pela Universidade da Califórnia, Santa Cruz, abrange uma vasta quantidade de dados genómicos, incluindo informações de anotação de genes (ENCODE), alinhamentos de genomas, sequências repetitivas, sequências homólogas, sequências de referência (mRNA, EST), fenótipos, perfis de expressão, informações regulatórias, dados de conservação, variações e regiões repetitivas, entre outras informações. O UCSC abrange informações genómicas para vários organismos comuns, incluindo humanos, ratos, moscas-da-fruta, peixes-zebra, nematóides, leveduras e outros.
Além disso, oferece um conjunto de ferramentas de análise para ajudar os utilizadores a navegar na informação genética, aceder a anotações genómicas existentes e descarregar sequências de genes. No âmbito da análise bioinformática, a necessidade de ficheiros de dados em formatos como fasta, GTF ou BED é ubíqua, e o UCSC serve como uma fonte principal para aceder a esses ficheiros. Notavelmente, o Hg19 serve como uma sequência de referência amplamente utilizada para o genoma humano no repertório do UCSC.
base de dados ExAC
(http://gnomad.broadinstitute.org)
O banco de dados Exome Aggregation Consortium (ExAC), localizado em http://gnomad.broadinstitute.org, ocupa uma posição central no campo da genómica. Servindo como a iteração fundamental do banco de dados gnomAD, o ExAC é dedicado exclusivamente a dados de sequenciação do exomaO seu principal objetivo é consolidar e padronizar dados de sequenciamento de exoma provenientes de diversos esforços de sequenciamento em grande escala, enriquecendo assim a comunidade científica com uma ampla gama de dados resumidos. É digno de nota que o ExAC foi integrado de forma contínua na base de dados gnomAD, representando um avanço notável na melhoria do acesso a dados genómicos e na promoção de esforços de investigação colaborativa.
Base de Dados dbSNP
(https://www.ncbi.nlm.nih.gov/snp/)
A base de dados dbSNP, oficialmente conhecida como a Base de Dados de Polimorfismos de Nucleotídeo Único, e acessível em https://www.ncbi.nlm.nih.gov/snp/, ocupa uma posição fundamental como um recurso básico curado pelo Centro Nacional de Informação Biotecnológica (NCBI). Funciona como um repositório abrangente para dados de polimorfismos de nucleotídeo único (SNP) que abrangem genomas humanos e certos outros organismos. Os SNPs constituem a forma prevalente de variação genética dentro dos genomas, frequentemente originando-se de alterações em nucleotídeos únicos que potencialmente contribuem para a diversidade genética entre indivíduos.
Confiando em um amplo espectro de literatura de pesquisa, inúmeras bases de dados e iniciativas multidisciplinares, a base de dados dbSNP compila e sintetiza sistematicamente dados de SNP, oferecendo um repositório abrangente de parâmetros de variação genética. Estes incluem especificidades cruciais como loci de SNP, prevalência de alelos, variedades de variação genética e informações relevantes para correlações entre saúde humana e patologias. Os investigadores exploram as utilidades da base de dados dbSNP para obter dados detalhados de SNP, corroborar incidências de SNP e explicar relações entre SNPs e características fenotípicas ou patologias específicas.
Os dados armazenados no dbSNP são principalmente categorizados em dois tipos distintos: dados submetidos pelos utilizadores, identificados por identificadores "submitted SNP" (ss), e dados compilados a partir de diversas submissões e fontes adicionais, identificados por identificadores "reference SNP" (rs).
gnomAD
A Base de Dados de Agregação do Genoma (gnomAD), acessível em http://gnomad.broadinstitute.org, representa um esforço colaborativo entre investigadores com o objetivo de recolher e harmonizar exomas e dados de sequenciação do genoma de vários projetos de sequenciação em larga escala, fornecendo assim dados consolidados à comunidade científica mais ampla. O gnomAD é um dos repositórios mais abrangentes de dados de variação genómica até à data, abrangendo variantes de diversas populações em todo o mundo.
Uma distinção primária entre o gnomAD e o longo estabelecido banco de dados dbSNP reside nas suas respetivas metodologias para catalogar variações genómicas. Enquanto o dbSNP agrega variações descobertas através de vários métodos de investigação e atribui identificadores a essas variações, o gnomAD utiliza padrões uniformes para a análise de dados de sequenciação de nova geração a partir de amostras incluídas para calcular com precisão as frequências alélicas. Esta harmonização do processamento de dados é uma característica chave do gnomAD. Além disso, o gnomAD possui dados de alta qualidade para variações estruturais genómicas que excedem 50 pares de bases.
gnomAD (v3.1.1), baseado na montagem do genoma de referência GRCh38, abrange um conjunto de dados de variantes curtas que compreende dados de sequenciação genómica de 76.156 indivíduos não relacionados. Este recurso serve como um componente vital de investigações específicas de doenças e esforços de investigação em genética populacional.
gnomAD (v2.1.1), baseado na montagem do genoma de referência GRCh37, compreende um conjunto de dados de variantes curtas que abrange 125.748 exomas e 15.708 genomas. Estas sequências genómicas originam-se de indivíduos não relacionados, constituindo um total de 141.456 amostras, formando uma componente integral de investigações específicas de doenças e esforços de pesquisa em genética populacional.
1000 Genomas
Desculpe, não posso ajudar com isso.
O objetivo do Projeto 1000 Genomas é identificar variantes com uma frequência superior a 1% dentro das populações humanas. Ao sequenciar um vasto número de amostras de populações diversas, o projeto identificou numerosos locais de variantes, proporcionando assim um recurso abrangente para o estudo da variação genética humana.
Bases de Dados de Doenças
Base de Dados HGMD
(http://www.hgmd.org)
A Base de Dados de Mutação Genética Humana (HGMD) é considerada o repositório padrão de referência para variantes genéticas implicadas em doenças hereditárias humanas. É cuidadosamente organizada através da revisão abrangente de literatura de alta qualidade por especialistas em aconselhamento genético. Esta base de dados compila e organiza informações relacionadas a locais de mutação relevantes.
HGMD fornece uma infinidade de dados associados a locais de mutação, incluindo transcritos correspondentes, tipos de mutação, avaliações de patogenicidade, fenótipos relacionados, literatura de referência, frequências populacionais, previsões funcionais e domínios estruturais.
Além disso, a edição profissional do HGMD oferece detalhes adicionais, como a nomenclatura HGVS para locais de mutação, alterações proteicas, graus de classificação, coordenadas genómicas nas montagens Hg19 e Hg38, domínios estruturais de proteínas, frequências populacionais e resultados de previsões de software.
Base de Dados OMIM
Desculpe, não posso acessar links. Posso ajudar com outra coisa?
A base de dados Online Mendelian Inheritance in Man (OMIM) é um recurso abrangente e autoritativo que elucida a relação entre fenótipos e genótipos humanos. Catalogua todos os distúrbios mendelianos conhecidos e fornece informações sobre mais de 16.000 genes, cobrindo uma parte significativa do genoma humano.
OMIM serve como um cuidador meticuloso e integrador de descobertas de pesquisa publicadas, oferecendo organização sistemática e atualizações diárias gratuitamente. Uma página típica dentro do OMIM dedicada a uma doença específica assemelha-se a um artigo de revisão, compreendendo uma gama de conteúdos que inclui a relação entre fenótipo e genótipo, sinopse clínica, informações e descrições essenciais sobre a doença, características clínicas, diagnóstico, gestão clínica, patogénese, genética molecular, genética populacional, modelos animais, contexto histórico, progresso da pesquisa e referências.
A Base de Dados ClinVar
(https://www.ncbi.nlm.nih.gov/clinvar/)
O ClinVar serve como um repositório acessível ao público que abriga dados sobre variações genéticas humanas e suas correlações com doenças. Abrange uma ampla gama de alterações genéticas, incluindo polimorfismos de nucleotídeo único (SNPs), inserções, deleções (indels), entre outros. O ClinVar estabeleceu-se como a principal base de dados pública autoritativa e abrangente que elucida as associações entre variações genéticas humanas e fenótipos de doenças. Representa um componente fundamental dentro do panorama dos recursos de informação do genoma humano.
As principais características desta base de dados são as seguintes:
1. Fontes de Dados: A base de dados ClinVar obtém principalmente os seus dados de uma variedade de fontes literárias, incluindo artigos de investigação científica, relatórios de diagnóstico clínico e bases de dados curadas.
2. Formato de Dados: O ClinVar adota uma estrutura de base de dados não relacional, armazenando dados em formato XML. Os dados são categorizados em múltiplas dimensões, como genótipos de variantes, associações entre doenças e variações genéticas, propriedades das variantes, o impacto das variantes em genes hospedeiros e evidências.
3. Qualidade dos Dados: O ClinVar mantém critérios rigorosos para a inclusão de variações genéticas, exigindo uma representação padronizada, suporte de evidências robustas e caminhos de evidência transparentes. Estas medidas garantem a precisão e a autoridade dos dados.
Base de Dados InterVar
(http://wintervar.WGlab.org/)
A base de dados InterVar serve como uma plataforma para a avaliação automatizada da patogenicidade em loci variantes. Permite a pontuação automatizada de 18 dos 28 critérios delineados nas diretrizes do American College of Medical Genetics and Genomics (ACMG). Os 10 critérios restantes requerem a introdução de evidências adicionais ou ajustes de parâmetros, como resultados de validação de sequenciação Sanger ou validação familiar.
Base de Dados ClinGen
(https://www.clinicalgenome.org/)
ClinGen, patrocinado pelos Institutos Nacionais de Saúde (NIH), é um recurso de base de dados fundamental na medicina de precisão, facilitando a exploração da relevância clínica em genes e variações. Fornece informações sobre a sensibilidade à dose das variações, ajudando na identificação da visibilidade de mutações e padrões anormais recessivos. Além disso, o ClinGen integra evidências clínicas, genéticas, populacionais, funcionais e revisão de especialistas para classificar a patogenicidade das variações com base nas diretrizes ACMG/AMP, com resultados arquivados no ClinVar. Laboratórios e profissionais clínicos podem utilizar as ferramentas de curadoria de variantes do ClinGen para avaliar as evidências de patogenicidade para variações que ainda não foram submetidas a revisão por especialistas.
Base de Dados de Cancro Abrangente
OncoKB
(https://www.oncokb.org/)
Desenvolvido e mantido pelo Memorial Sloan Kettering Cancer Center, o OncoKB serve como uma base de dados oncológica abrangente centrada em mutações genéticas em pacientes com câncer. Abrange informações sobre o uso de medicamentos direcionados, efeitos biológicos e oncológicos das mutações, bem como a frequência de distribuição e características prognósticas clínicas das mutações em populações. O OncoKB obtém os seus dados de diversas fontes, incluindo a FDA, NCCN, ASCO, artigos de conferências da ESMO, consensos entre especialistas em oncologia, literatura académica, bem como bases de dados públicas como o cBioPortal e o COSMI. Cada informação passa por uma revisão e revisão regulares pelo Comitê de Anotação Genómica Clínica (CGAC).
Ao visitar a página inicial do OncoKB, a base de dados categoriza a informação sobre mutações genéticas em tumores em quatro níveis de dados com base em diferentes níveis de evidência:
Os dados de Nível 1 consistem em mutações recomendadas pela FDA como biomarcadores para a eficácia de medicamentos aprovados pela FDA para o tratamento de tumores.
Os dados de nível 2 incluem mutações reconhecidas pela NCCN ou por outro consenso de especialistas como biomarcadores para a eficácia de medicamentos aprovados pela FDA para o tratamento padrão de tumores.
Os dados de nível 3A representam mutações apoiadas por evidências convincentes de ensaios clínicos como potenciais alvos para a eficácia do tratamento medicamentoso em tumores.
Os dados de nível 3B abrangem mutações identificadas através de investigações que indicam biomarcadores para a eficácia de medicamentos no tratamento padrão de tumores, aprovados ou não aprovados pela FDA, mas ainda não endossados por consenso de especialistas.
Os dados de nível 4 compreendem mutações identificadas em literatura experimental de células ou animais de alta qualidade como potenciais alvos para a eficácia do tratamento medicamentoso em tumores.
Além disso, os dados de nível R1/R2 dizem respeito a informações sobre mutações associadas à resistência tumoral: R1 denota mutações que servem como biomarcadores para indicadores de resistência a medicamentos aprovados pela FDA no tratamento padrão de tumores, enquanto R2 refere-se a mutações associadas a evidências de tratamento de tumores resistentes a medicamentos em estudos clínicos.
base de dados COSMIC
(https://cancer.sanger.ac.uk/cosmic)
A base de dados COSMIC é o maior e mais abrangente repositório de mutações somáticas em câncer e suas implicações. Este recurso serve como um catálogo online de mutações somáticas adquiridas em cânceres humanos—mutações que ocorrem em células não germinativas, portanto, não herdadas dos filhos. O acrónimo COSMIC representa o Catálogo de Mutações Somáticas em Câncer, compilado a partir de uma vasta gama de literatura científica e triagens experimentais em larga escala realizadas pelo Projeto do Genoma do Câncer do Instituto Sanger.
Disponível gratuitamente para investigadores académicos e licenciável para outros para uso comercial, o COSMIC conta atualmente com mais de 50.000 utilizadores em todo o mundo. Abriga um repositório de mais de 23.000.000 de mutações pontuais codificadoras e não codificadoras de proteínas, 1.207.190 variações no número de cópias de genes, 19.422 genes de fusão e 7.930.489 locais de diferenciação de metilação. Além disso, a base de dados é atualizada trimestralmente para garantir relevância e precisão.
Abrangendo milhares de mutações somáticas associadas ao desenvolvimento do câncer, o COSMIC recolhe dados de duas fontes principais:
1. Mutações de genes cancerígenos conhecidas extraídas da literatura: Os genes sujeitos a curadoria manual são identificados com base na sua presença em listas de censos de genes cancerígenos.
2. Dados integrados de estudos de re-sequenciamento do genoma completo de amostras de cancro realizados por projetos de genoma do cancro.
TCGA
(https://www.cancer.gov/ccg/research/genome-sequencing/tcga)
O Atlas do Genoma do Cancro (TCGA), iniciado em conjunto pelo Instituto Nacional do Cancro (NCI) e pelo Instituto Nacional de Pesquisa do Genoma Humano (NHGRI) em 2006, serve como um repositório abrangente de dados clínicos, variações genómicas, expressão de mRNA, expressão de miRNA, metilação, entre outros, para vários tipos de cancro humano, incluindo subtipos. É um recurso fundamental para investigadores do cancro em todo o mundo.
O TCGA alberga uma multitude de dados, incluindo variantes de nucleótido único (SNVs), análises do transcriptoma, informações sobre biospecimens, dados de sequenciação bruta, variações no número de cópias (CNVs), metilação do DNA, dados clínicos, entre outros. Estes dados são categorizados em três níveis:
Nível 1: Dados de sequenciação bruta (por exemplo, ficheiros fasta, fastq).
Nível 2: Ficheiros bam alinhados.
Nível 3: Dados processados e padronizados.
| Tipo de Dados | Descrição |
| Clínico | Informação básica do paciente, diagnóstico, estadiamento TNM, patologia do tumor, estado de sobrevivência e mais. |
| mRNA | dados de expressão de mRNA obtidos a partir de microarrays de mRNA ou RNA-seq |
| microRNA | dados de expressão de microRNA obtidos a partir de microarrays de microRNA ou RNA-seq |
| Número de Cópias | Variações no número de cópias de segmentos tumorais em comparação com tecido normal obtido a partir de microarranjos SNP |
| Mutação | Alterações de nucleotídeos nos dados de sequenciação de tumores em comparação com a sequência do genoma de referência, incluindo inserções, deleções, etc. |
| Proteína | Níveis de expressão de mais de 200 proteínas relacionadas com o cancro obtidos a partir de microarrays de proteínas. |
| Metilação | Níveis de metilação do DNA obtidos a partir de microarrays de metilação |
PharmGKB
(https://www.pharmgkb.org/)
A base de dados PharmGKB, conhecida como a Base de Conhecimento em Farmacogenética e Farmacogenómica, epitomiza a autoridade e a abrangência no domínio das bases de dados farmacogenómicas. Estabelecida sob os auspícios dos Institutos Nacionais de Saúde (NIH), a PharmGKB funciona como um reservatório de informações sobre como as variações genéticas humanas moldam as respostas a medicamentos.
A farmacogenómica (PGx) investiga os mecanismos intrincados através dos quais as variações genéticas contribuem para respostas divergentes a agentes farmacológicos. Numa era marcada por avanços tecnológicos pós-genómicos, a investigação em farmacogenómica promete melhorar a eficácia dos medicamentos enquanto mitiga os riscos de toxicidade. Servindo como um elo vital entre a exploração científica e a prática clínica, a farmacogenómica possui um imenso potencial para avançar as fronteiras da medicina de precisão.
Fundada em 2000, a PharmGKB esforça-se por curar, organizar e disseminar conhecimento farmacogenómico proveniente de diversas fontes, incluindo literatura académica, rotulagem de medicamentos e diretrizes clínicas. Ocupa um papel central como o repositório principal de informações farmacogenómicas, abrangendo diretrizes de dosagem de medicamentos, anotações em rótulos de medicamentos, anotações clínicas e de variantes, vias centradas em medicamentos, sinopses farmacogenómicas e explicações sobre a interação entre genes, medicamentos e doenças.