Tópicos Avançados e Inovações em GWAS: Da Integração Multi-Ómica a Novas Descobertas

Visão Geral Rápida

01 GWAS de Múltiplos Traços e Interpopulacional 02 Integração com Dados Ómicos 03 Aprendizagem de Máquina e IA em GWAS 04 Análise de Correlação entre GWAS e Variação Rara 05 Conclusão

Estudo de associação genómica (GWAS), como a ferramenta central para analisar a base genética de traços complexos, desenvolveu-se gradualmente desde a simples associação de traços únicos e populações únicas na fase inicial para uma direção multidimensional, de múltiplas escalas e inteligente. No campo da pesquisa em ciências da vida, a exploração dos mistérios genéticos humanos é interminável, e a atualização iterativa da tecnologia GWAS fornece um novo caminho para superar doenças complexas e analisar a biodiversidade. As pesquisas iniciais sobre GWAS concentraram-se numa única doença ou fenótipo, à procura de variações genéticas comuns associadas a traços numa pequena população amostral. No entanto, com a redução de custos e a melhoria do poder computacional da tecnologia de sequenciamento, esta tecnologia rompeu com o paradigma de pesquisa tradicional.

No estudo de múltiplos traços e populações cruzadas, o mecanismo genético comum de espécies cruzadas e tipos de doenças cruzadas pode ser explorado através da integração de dados de múltiplas populações e múltiplos fenótipos. Integração de dados multiômicos rompe com a limitação da genómica única e analisa de forma abrangente a regulação da variação genética nas redes biomoleculares através da análise colaborativa de dados multidimensionais, como grupos de transcrição e grupos de proteínas.

A introdução de algoritmos de aprendizagem automática e inteligência artificial melhora significativamente a eficiência do processamento de dados complexos e ajuda a encontrar sinais genéticos fracos que são difíceis de capturar por métodos tradicionais; A análise de associação entre GWAS e mutações raras compensa a limitação de se focar apenas em mutações comuns na fase inicial, e abre uma nova direção para a análise da base genética de doenças raras e doenças complexas.

O artigo explora tópicos avançados e inovações em GWAS, incluindo estudos de múltiplos traços e de populações cruzadas, integração de multi-ómicas, aplicações de aprendizagem automática e IA, e GWAS com análise de correlação de variações raras, juntamente com tendências futuras.

GWAS Multi-Característica e Interpopulacional

A GWAS tradicional foca-se numa única característica ou numa única população, e é difícil capturar o mecanismo de co-regulação genética entre características e a heterogeneidade genética entre populações. GWAS de múltiplas características e entre populações melhoraram significativamente a profundidade e a amplitude da análise genética ao integrar dados fenotípicos e populacionais multidimensionais.

Serviços que pode estar interessado em

Saiba Mais

Estratégia de Análise de GWAS Multi-característica

Ao analisar múltiplos traços relacionados (como altura e peso, níveis de açúcar no sangue e insulina) ao mesmo tempo, os GWAS de múltiplos traços podem explorar os loci genéticos partilhados que controlam "clusters de traços" e revelar a rede regulatória sinérgica de traços complexos. O seu método central inclui:

Modelo misto linear multivariado (MVLMM)Este modelo considera múltiplos traços como variáveis de resposta e analisa a correlação genética entre indivíduos e fatores ambientais. Ao introduzir uma matriz de variância-covariância, o MVLMM pode capturar efetivamente a covariância genética entre traços, identificando assim locos pleiotrópicos que afetam múltiplos traços.
Método Bayesiano: Um método de análise multi-característica baseado na estrutura Bayesiana, como a Seleção de Variáveis Multi-características Bayesiana (BMVS), modela os efeitos genéticos ao introduzir uma distribuição a priori. Este método pode efetivamente filtrar os verdadeiros locais de associação em dados de alta dimensão e descrever a estrutura genética de múltiplas características em detalhe, sendo especialmente adequado para a análise combinada de características com relações genéticas complexas.
Estratégia de integração da análise de componentes principais (PCA): vários traços são transformados em componentes principais independentes através da PCA, o que reduz a dimensão dos dados enquanto retém a principal informação de variação entre os traços. A análise GWAS subsequente dos componentes principais pode não apenas reduzir a complexidade computacional, mas também encontrar os fatores genéticos que afetam a variação abrangente de múltiplos traços, sendo frequentemente utilizada para lidar com conjuntos de traços complexos com alta correlação.

Layout of multiple-trait genome-wide association studies (GWAS) based on principal component analysis (PCA) compared with single-trait GWAS (Zhang et al., 2018) Layout de estudos de associação genómica (GWAS) de múltiplos traços baseados em análise de componentes principais (PCA) versus GWAS de traço único (Zhang et al., 2018)

Valores Fundamentais e Desafios da GWAS Intergrupos

O GWAS demonstra as suas vantagens únicas no campo da investigação genética ao integrar dados populacionais com diferentes antecedentes genéticos (como populações europeias, asiáticas e afro-americanas), o que pode ser realizado da seguinte forma:

Melhorar a eficiência da deteção de variação genética: As diferenças no background genético de diferentes populações levam a diferenças significativas na distribuição de polimorfismos genéticos. A integração de dados de múltiplas populações pode ultrapassar o gargalo genético de uma única população, encontrar mais sítios de mutação de baixa frequência e raros, e melhorar significativamente a taxa de deteção de loci genéticos relacionados a doenças complexas.
Aumentar a universalidade dos resultados: Os resultados de pesquisas de grupo único têm limitações. A análise entre grupos pode verificar a estabilidade da associação genética em diferentes populações, evitar o viés de pesquisa causado pela especificidade populacional, tornar os resultados da pesquisa mais universais e fornecer uma base fiável para a prática da medicina de precisão em diferentes populações em todo o mundo.
Revelando o mecanismo genético específico da população: Ao comparar e analisar diferentes populações ancestrais, podemos identificar os loci genéticos específicos de cada população afetados pela seleção natural, adaptação ambiental e outros fatores, compreender profundamente as diferenças nos mecanismos genéticos das doenças entre diferentes populações e fornecer novos alvos para cuidados médicos personalizados, pesquisa e desenvolvimento de medicamentos.
Otimização do modelo de previsão de risco genético: O modelo de previsão de risco baseado em dados genéticos de múltiplas populações pode incorporar mais informações genéticas e fatores ambientais, melhorando significativamente a precisão e a fiabilidade da previsão do risco de doenças, e fornecendo ferramentas mais eficazes para o alerta precoce e a prevenção de doenças.

The similarity of genetic signals across four superpopulations (Zhang et al., 2018) Semelhança de sinal genético entre 4 superpopulações (Zhang et al., 2018)

Integração com Dados Ómicos

Os loci significativos de GWAS estão maioritariamente localizados em regiões não codificantes, e é difícil esclarecer o seu mecanismo funcional apenas através da associação genótipo-fenótipo. Ao integrar os dados de transcriptoma, fenótipo, grupo de proteínas e outras ómicas, podemos construir uma cadeia de associação de "genótipo-fenótipo molecular-fenótipo" e realizar o salto de "localização" para "mecanismo".

Níveis e Métodos de Integração Multigrupo

Integração do transcriptoma: Com base na estrutura de análise de loci de características quantitativas de expressão (eQTL), foi construído o modelo de correlação estatística entre loci de estudos de associação genómica e o nível de expressão génica, e os potenciais genes-alvo candidatos foram identificados através da análise de colocalização.

Integração episomal: A combinação de tecnologias de alto rendimento, como a sequenciação da acessibilidade da cromatina (ATAC-seq) e sequenciação por imunoprecipitação de metilação de DNA (MeDIP-seq), as características de distribuição dos loci GWAS em elementos regulatórios do genoma (como promotores e potenciadores) foram analisadas de forma sistemática. Através do algoritmo de previsão de elementos cis-regulatórios, foi avaliado o potencial mecanismo de influência da variação genética na regulação da expressão génica, incluindo a alteração do local de ligação de fatores de transcrição e a remodelação da conformação da cromatina.
Integração do Grupo de Proteínas e do Grupo Metabonomico: Com a ajuda da análise de Locais de Traços Quantitativos de Proteínas (pQTL) e Locais de Traços Quantitativos de Metabolitos (mQTL), foi construído uma rede regulatória causal de variação genética, fenótipo molecular e fenótipo clínico.

Genetic-Glycan joint principal components derived using the OmicsPLS R-package. The loading values of each IgG1 glycan variable are shown for each component (Bouhaddani et al., 2018) Componentes principais conjuntos de glicano-genético obtidos com o pacote R OmicsPLS. Os valores de carga de cada variável de glicano IgG1 são representados por componente (Bouhaddani et al., 2018).

Integrar o Desenvolvimento de Plataformas e Ferramentas

Nos últimos anos, com o rápido desenvolvimento da tecnologia biomédica quantitativa na Qualcomm, a coleta de vários dados "ómicos" atingiu um nível de detalhe sem precedentes. Neste contexto, as ferramentas de integração multi-ómica estão a surgir constantemente.

OmicsIntegrator: Ao construir uma estrutura de análise conjunta de dados multi-ómicos, é possível realizar a mineração colaborativa de dados de genoma, transcriptoma, grupo de proteínas e metabolómica, permitindo a identificação eficaz de marcadores moleculares multi-ómicos relacionados com doenças complexas.
MixOmics: Baseado em um algoritmo de aprendizagem automática, pode encontrar a associação potencial entre variáveis em dados multidisciplinares de alta dimensão e ajudar os investigadores a extrair vias biológicas chave e redes regulatórias a partir de dados massivos.
IGUIDE: Concentre-se na integração de dados do epigenoma e do transcriptoma, e utilize um modelo de aprendizagem profunda para analisar o mecanismo de regulação da modificação epigenética na expressão génica, proporcionando uma nova perspetiva para compreender a ocorrência e o desenvolvimento de doenças.
Análise de Fatores Multi-Ómicos (MOFA): Usando um modelo de gráfico de probabilidade, múltiplos conjuntos de dados ómicos podem ser processados ao mesmo tempo, os sinais biológicos partilhados e específicos entre os ómicos podem ser separados, e o modo de regulação multi-ômica por trás de fenótipos complexos pode ser revelado.

Training of Supervised Machine Learning Algorithms (Nicholls et al., 2020) Treinamento de Algoritmos de Aprendizagem de Máquina Supervisionada (Nicholls et al., 2020)

Aprendizagem de Máquina e IA em GWAS

A aprendizagem automática (ML) e a inteligência artificial (IA) oferecem uma nova solução para os GWAS, superando as limitações dos modelos estatísticos tradicionais, especialmente na análise de dados complexos e na modelagem preditiva.

A. Pré-processamento de Dados e Filtragem de Ruído
- a) Os dados de GWAS frequentemente contêm ruído, como erros técnicos e mistura de grupos, e os algoritmos de aprendizagem automática podem otimizar eficientemente a qualidade dos dados.
- b) Na fase de pré-processamento de dados, com base num algoritmo de clustering (como o K-means), as amostras anormais podem ser identificadas com precisão através da análise quantitativa das características genéticas multidimensionais das amostras (como a frequência do genótipo do locus SNP e a distribuição da frequência alélica).
- c) Na identificação de sinais relacionados, o algoritmo de floresta aleatória, pela sua vantagem de aprendizagem integrada, melhora efetivamente a capacidade de capturar sinais reais relacionados ao construir múltiplas árvores de decisão e sintetizar os resultados de votação. A Máquina de Vetores de Suporte (SVM) utiliza uma função de núcleo não linear para encontrar o hiperplano de classificação ótimo em espaço de alta dimensão, o que pode distinguir com precisão o verdadeiro sinal de correlação do falso sinal de correlação causado pela estratificação de grupos e, ao mesmo tempo, com a correção de Bonferroni e outras estratégias, pode reduzir significativamente os problemas de falsos negativos causados por múltiplos testes.
- d) Enfrentando os milhões de locais de polimorfismo de nucleotídeo único (SNP) nos dados de GWAS, o auto-codificador mapeia os dados de SNP de alta dimensão para um espaço oculto de baixa dimensão, construindo uma arquitetura de rede neural que inclui uma camada de codificação e uma camada de decodificação, o que reduz a complexidade computacional em cerca de 80% enquanto retém características genéticas chave. Esta redução de dimensão não só acelera a análise estatística subsequente, mas também evita efetivamente o risco de sobreajuste causado pela maldição da dimensionalidade.

A hypothetical GWAS locus featuring two signals that impact two genes (Cannon et al., 2018) Locus GWAS Hipotético com Dois Sinais que Afetam Dois Genes (Cannon et al., 2018)

B. Mineração de Padrões de Associação Complexos
- a) A aprendizagem automática fornece métodos inovadores para relações complexas que são difíceis de capturar em modelos tradicionais, como a interação gene-gene (efeito epistático) e a interação gene-ambiente.
- b) Modelos de aprendizagem profunda (como uma rede neural convolucional, CNN) podem extrair automaticamente as características de associação não lineares das combinações de SNP e identificar com sucesso cinco locais de interação que foram perdidos por métodos tradicionais em GWAS de doenças mentais.
- c) A árvore de decisão de boosting por gradiente (GBDT) integra fatores genotípicos e ambientais (como a precipitação e a temperatura) no estudo das características de rendimento das culturas, construindo um modelo de previsão multivariado e prevendo com precisão os efeitos genéticos em diferentes ambientes.
C. Predição Fenotípica e Anotação Funcional
- a) O modelo de previsão de aprendizagem automática baseado em marcadores GWAS (como a versão otimizada por aprendizagem profunda do escore de risco de múltiplos genes PRS) pode melhorar significativamente a precisão da previsão do risco de doenças (como o valor AUC da previsão do risco de cancro da mama que aumentou de 0,68 para 0,75).
- b) A tecnologia de processamento de linguagem natural (NLP) pode anotar automaticamente as potenciais funções dos loci GWAS ao explorar textos biomédicos na literatura e em bases de dados, como a combinação com a base de dados Gene Ontology para prever os processos biológicos em que os loci podem participar.

Análise de Correlação entre GWAS e Variação Rara

Tradicional GWAS foca principalmente na variação comum (frequência do alelo > 5%), mas a variação rara (frequência < 1%) desempenha um papel importante em doenças complexas (como doenças raras e algumas doenças genéticas complexas) e nas diferenças na resposta a medicamentos. A análise de correlação entre GWAS e mutações raras tornou-se um ponto focal de pesquisa na área.

A. Desafios Técnicos da Análise de Associação de Variação Rara
- a) A procura por tamanho de amostra é enorme: Devido à frequência extremamente baixa de mutações raras na população (geralmente a frequência alélica < 1%), o tamanho da amostra de dezenas de milhares de pessoas exigido pelos GWAS tradicionais é difícil de cumprir os requisitos de teste estatístico, sendo frequentemente necessário incluir centenas de milhares ou até milhões de amostras para alcançar uma eficiência de teste suficiente, resultando num aumento acentuado nos custos de pesquisa e numa coleta de amostras extremamente difícil.
- b) O peso de múltiplos testes é agravado: Quando mutações raras são detetadas no genoma completo, o número de locais de mutação que precisam ser testados ao mesmo tempo aumenta drasticamente, o que agrava ainda mais o problema de um limiar rigoroso causado por múltiplos testes e correções, tornando o verdadeiro sinal de correlação mais facilmente enterrado no ruído.
- c) Heterogeneidade genética complexa: A mutação rara geralmente apresenta uma especificidade populacional mais forte e heterogeneidade funcional, e o mecanismo patogénico da mesma mutação rara pode ser diferente em indivíduos ou populações distintas, tornando difícil capturar com precisão o seu padrão de associação com o fenótipo através de um modelo estatístico unificado.

Presented here are the outcomes of the multivariate analysis on pleiotropy: for each locus, the method yields the optimal fitting solution indicating which phenotypes were associated with that locus (Liu et al., 2019) Aqui estão os resultados da análise multivariada de pleiotropia. Para cada locus, o método retorna a melhor solução ajustada sobre quais fenótipos estavam associados a esse locus (Liu et al., 2019).

B. Métodos e Ferramentas de Análise de Núcleo
- a) Testes de Carga: Este método agrega as mutações raras no mesmo gene no grupo caso e no grupo de controlo, e avalia se o gene está relacionado com a doença comparando a diferença no número ou na frequência das mutações entre os dois grupos.
- b) Teste de associação baseado em conjunto: Este método não só presta atenção à quantidade de variação, mas também considera de forma abrangente a informação, como a anotação funcional e a frequência alélica da variação. Ao construir um modelo estatístico, foi avaliada a correlação entre conjuntos de variações raras em genes e fenótipos.
- c) Estratégia de análise de estratificação: De acordo com a influência funcional da variação (como mutação missense, mutação de deslocamento de quadro, etc.), a posição no gene (como região codificante e região não codificante) ou subgrupo populacional, a variação rara é estratificada. A análise de correlação de diferentes níveis de conjuntos de variação é útil para localizar variações raras relacionadas a doenças de forma mais precisa.
- d) Método de aprendizagem automática: Utilizando um algoritmo de aprendizagem automática para integrar múltiplos dados ómicos, como dados de expressão génica, dados de estrutura de proteínas, etc., combinado com informações sobre mutações raras para análise de associação com doenças.

Conclusão

A inovação tecnológica dos GWAS promove a pesquisa genética de características complexas para um novo estágio. A análise multi-característica entre populações quebra a barreira dos dados, a multi-ómica integra a via gene-fenótipo, o aprendizado de máquina aumenta a eficiência da análise de dados, a pesquisa de mutações raras melhora o mapa genético e constrói em conjunto um sistema de pesquisa inteligente multidimensional.

No futuro, os GWAS apresentarão três tendências de desenvolvimento: primeiro, a fusão de dados em diferentes escalas, combinada com omicas de célula única e outras tecnologias para analisar os efeitos genéticos. Em segundo lugar, a inovação colaborativa interdisciplinar, integrada com a evolução e outras teorias, revela a importância da variação genética. Em terceiro lugar, a transformação clínica é acelerada, e o diagnóstico e tratamento precisos de doenças é realizado através da análise de correlação.

Embora ainda existam desafios, com o contínuo avanço dos métodos técnicos, os GWAS continuarão a fornecer uma poderosa ferramenta de análise genética para analisar a complexidade da vida e promover o desenvolvimento da medicina de precisão e da agricultura moderna.

Referências:

Zhang W, Gao X, Shi X, et al. "Análise GWAS de Múltiplos Traços Baseada em PCA: Um Modelo Poderoso para Explorar a Pleiotropia." Animais (Basel)2018 8(12): 239
Troubat L, Fettahoglu D, Henches L, Aschard H, Julienne H.GWAS multi-trait para ancestrais diversos: mapeando a lacuna de conhecimento." BMC Genómica2024 25(1): 375
Bouhaddani SE, Uh HW, Jongbloed G, Hayward C., et al. "Integração de conjuntos de dados ómicos com o pacote OmicsPLS." BMC Bioinformática. 2018 19(1): 371
Nicholls HL, John CR, Watson DS, Munroe PB, Barnes MR, Cabrera CP. "Atingindo o Fim do Jogo para GWAS: Abordagens de Aprendizagem de Máquina para a Priorização de Loci de Doenças Complexas." Front Genet. 2020 11: 350
Cannon ME, Mohlke KL. "Decifrando as Complexidades Emergentes dos Mecanismos Moleculares nos Locais de GWAS." Am J Hum Genet. 2018 103(5): 637-653
Liu M, Jiang Y, Wedow R, et al. "Estudos de associação com até 1,2 milhões de indivíduos revelam novas informações sobre a etiologia genética do uso de tabaco e álcool." Nat Genet2019 51(2): 237-244

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados