Quais são as Ferramentas de Análise GWAS
Quais são as Ferramentas de Análise GWAS?
Este artigo fornece uma visão geral das principais ferramentas e metodologias utilizadas em GWAS, incluindo uma introdução a softwares comumente usados, como TASSEL, PLINK e GEMMA, entre outros. Também orienta os investigadores através do processo de realização de análises GWAS, desde a preparação de dados até a visualização de resultados, utilizando ferramentas como gráficos QQ e gráficos de Manhattan para interpretar as descobertas. Quer seja novo em GWAS ou um investigador experiente, este guia proporcionará insights valiosos sobre as aplicações práticas e as melhores práticas para a realização de GWAS.
Introdução aos GWAS
Estudo de Associação em Todo o Genoma (GWAS) é um método de pesquisa utilizado para analisar as associações entre genótipos e fenótipos, amplamente aplicado na descoberta da base genética de características complexas. GWAS identifica marcadores genéticos associados a doenças específicas, características ou outros fenótipos, desempenhando um papel significativo na prevenção de doenças, desenvolvimento de medicamentos e medicina personalizada.
Ao analisar dados genómicos de grandes populações amostrais, os GWAS visam identificar polimorfismos de nucleótido único (SNPs) associados a características particulares. Essas associações podem revelar potenciais biomarcadores ou orientar direções futuras de pesquisa.
Serviço que pode interessá-lo
Principais Ferramentas de Análise GWAS
Resumimos informações sobre ferramentas de análise GWAS comumente utilizadas, incluindo EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL e FastLMM, numa tabela que detalha as suas principais características, velocidade computacional e ano de publicação. Cada ferramenta de software oferece vantagens analíticas únicas e é adequada para cenários específicos. Selecionar a ferramenta mais apropriada com base nas necessidades de pesquisa específicas e nas características dos dados é crucial para garantir a precisão e a fiabilidade dos resultados da análise GWAS.
| Nome do Software | Características Principais | Velocidade de Cálculo | Ano de Publicação | Link de Referência |
|---|---|---|---|---|
| EMMAX | Baseado no Modelo Linear Misturado (MLM), este considera a estrutura populacional e a parentesco. Suporta a análise de variantes raras e varreduras em todo o genoma. |
Rápido, otimizado para grandes volumes de dados. | 2010 | Referência EMMAX |
| GEMMA | Suporta tanto Modelos de Mistura Latente (MLM) como Modelos Lineares Generalizados (GLM). Ajusta para a estrutura populacional e efeitos ambientais. Lida com características binárias e de múltiplas classes. | Rápido e eficiente para grandes conjuntos de dados. | 2012 | Referência GEMMA |
| FarmCPU | Combina Modelos de MLM e Efeitos Fixos (FIXED). Melhora a precisão de deteção de loci causais, especialmente na investigação agrícola. Melhora a precisão de deteção de loci causais, especialmente na investigação agrícola. | Matriz esparsa moderada e otimizada. | 2016 | Referência do FarmCPU |
| PLINK | Projetado para controlo de qualidade de dados genotípicos em larga escala e análise de GWAS. Oferece vários métodos estatísticos, incluindo associações de ponto único e correções múltiplas. | Rápido, particularmente adequado para pré-processamento. | 2007 | Referência PLINK |
| PISCAR | Uma ferramenta GWAS otimizada usando o Critério de Informação Bayesiano (BIC). Detecta efetivamente sinais com taxas de falsos positivos reduzidas. | Relativamente rápido, adequado para dados de média escala. | 2018 | Referência BLINK |
| MLM(GAPIT3) | Modelo Linear Misturado que considera a estrutura populacional ao incorporar efeitos aleatórios. | Moderado, o desempenho diminui com conjuntos de dados maiores. | 2021 | Referência GAPIT3 |
| SUPER | Uma abordagem MLM otimizada utilizando "Super Indivíduos" para modelagem. Melhora a eficiência computacional e reduz as taxas de falsos positivos. | Rápido, adequado para dados em grande escala. | 2014 | SUPER Referência |
| CMLM | Modelo Linear Misto Condicional, uma melhoria em relação ao MLM padrão. Aumenta a eficiência e a precisão na deteção de associações. | Moderado, mais lento à medida que o número de condições aumenta. | 2010 | Referência CMLM |
| MLMM | Modelo Misturado MultiLocus que adiciona incrementalmente efeitos fixos para melhorar a deteção de sinais em GWAS. | Moderado, adequado para conjuntos de dados pequenos a médios. | 2012 | Referência MLMM |
| fastGWA | Implementação otimizada de MLM, projetada para estudos genómicos humanos em larga escala. Capaz de processar milhões de amostras e SNPs rapidamente. | Extremamente rápido, lida eficientemente com conjuntos de dados ultra-grandes. | 2020 | fastGWA Referência |
| GenABEL | Pacote GWAS baseado em R. Fornece uma solução abrangente desde o controlo de qualidade dos dados até à análise de associação. | Lento, adequado para pequenos conjuntos de dados ou estudos exploratórios. | 2007 | Referência GenABEL |
| FastLMM | Um algoritmo rápido baseado em modelos mistos lineares, otimizado para matrizes esparsas. Suporta análise conjunta de traços únicos e múltiplos. | Rápido, adequado para dados de genótipo em grande escala. | 2012 | Referência FastLMM |
| TASSELO | Integra GLM e MLM para análise, amplamente utilizado em pesquisa genética de plantas. Suporta análise integrada de dados fenotípicos, genotípicos e ambientais. Oferece modos de interface gráfica e linha de comando. | Rápido, adequado para conjuntos de dados de vários tamanhos. | 2007 | Referência TASSEL |
Análise GWAS pelo Tassel
A maioria do software mencionado requer um certo nível de proficiência em programação. No entanto, o TASSEL fornece um ambiente compilado completo e um pacote de instalação com uma interface gráfica de utilizador. Sendo uma das primeiras ferramentas de GWAS lançadas, é amplamente utilizada na área da genética de plantas.
O TASSEL oferece capacidades abrangentes de processamento, análise e visualização de dados. A seguir, são apresentados os passos detalhados para realizar a análise GWAS utilizando o TASSEL.
1. Software de instalação
Instalação do TASSEL
Os utilizadores precisam primeiro de descarregar o pacote de instalação do TASSEL 5 a partir do site oficial ou de outras fontes fiáveis. Existe um site fiável https://tassel.bitbucket.io.
Este software pode ser instalado em diferentes sistemas operativos, note que o Mac OS precisa ser instalado com direitos de administrador, caso contrário, será reportado um erro.
Fig. 1. Página de download do software TASSEL.
Compreensão da interface de software
Ficheiro: Usado para abrir e guardar dados, assim como para sair de operações.
Fig. 2. Menu Ficheiro TASSEL.
Dados: Realizar operações nos dados importados, como ordenação, interseção e união.
Fig. 3. Menu de Dados TASSEL.
Imputar: Preencher dados, incluindo diferentes métodos de preenchimento.
Fig. 4. Menu Impute do TASSEL.
Filtro: Realizar controlo de qualidade dos dados.
Fig. 5. Menu de Filtro TASSEL.
Análise: Inclui módulos muito importantes, como Parentesco, PCA, MDS, métodos de Resumo Geno, mas também GLM (modelo linear geral) e MLM (modelo linear misto).
Fig. 6. Menu de Análise TASSEL.
Resultados: Principalmente é o resultado da visualização, incluindo o diagrama LD, diagrama QQ, diagrama de Manhattan, entre outros.
Fig. 7. Menu de Resultados do TASSEL.
2.Importação de Dados
Preparação de Dados
Quatro tipos de ficheiros são necessários para a análise GWAS.
- Arquivo de Genótipo: Contém a informação do genótipo das amostras, tipicamente no formato Hapmap.
- Ficheiro de Parentesco: Usado para analisar as relações de parentesco entre amostras.
- Arquivo de Estrutura Populacional: Usado para avaliar a estrutura populacional das amostras.
- Ficheiro de Fenótipo: Contém informações fenotípicas correspondentes às amostras, como estado da doença ou medições de traços.
O pacote de instalação deste software vem com uma pasta TutorialData, que contém os 4 ficheiros necessários para GWAS, e o formato do ficheiro é .txt.
Fig. 8. Tutorial do software TASSEL - Pasta de data.
Após abrir o software TASSEL, o primeiro passo é importar os quatro tipos de dados. Clique em "Ficheiro" na barra de ferramentas e seleccione "Abrir", o que fornecerá opções para importar dados. Selecione o ficheiro .txt apropriado de uma pasta específica e depois clique em "OK" para importar os dados.
Fig. 9. Dados de genótipo importados do TASSEL.
Ao analisar os seus próprios dados, os dados fenotípicos são tipicamente fornecidos pelo utilizador, pelo que deve prestar atenção ao formato dos dados fenotípicos. A primeira coluna do ficheiro deve conter o rótulo <Trait>, a segunda coluna deve incluir os traços a serem analisados, e a terceira coluna, juntamente com as colunas subsequentes, deve representar os traços a serem analisados (um para cada um). O conteúdo sob o rótulo <Trait> deve listar os nomes dos materiais a serem analisados.
3. Controlo da Qualidade dos Dados
Controlo de Qualidade dos Dados de Genótipo:
Selecione os dados do genótipo, depois vá para a barra de ferramentas "Filtrar" e clique em "Locais." Na caixa de diálogo, clique em "Remover estados SNP menores" e depois clique em "Filtrar." Isto irá gerar os dados com controlo de qualidade, que serão usados para análises subsequentes.
Fig. 10. Dados de genótipo do filtro TASSEL.
Controlo de Qualidade dos Dados da Estrutura Populacional:
Selecione os dados da estrutura populacional, depois vá para a barra de ferramentas "Filtrar" e clique em "Características." Na caixa de diálogo, mude a coluna "Tipo" em "dados" para "covariável," remova uma marca de verificação na coluna "Incluir" e, em seguida, clique em "OK." Isto irá gerar os dados da estrutura populacional com controle de qualidade.
4. Análise GLM
O Modelo Linear Generalizado (GLM) é utilizado para analisar o modelo Q. Ao realizar a análise do modelo Q, são necessários três tipos de dados: dados de genótipo com controlo de qualidade, dados de estrutura populacional com controlo de qualidade e dados fenotípicos. Selecione estes três conjuntos de dados mantendo pressionada a tecla Ctrl, depois vá à barra de ferramentas "Dados" e clique em "Interseção de Juntos". Isso irá gerar um novo ficheiro, que contém os dados intersecados dos três conjuntos de dados.
Selecione os dados interseccionados, depois vá à barra de ferramentas "Análise" e clique em "GLM". Na caixa de diálogo que aparece, clique em "OK" para gerar os dados de resultado do modelo Q, conforme mostrado na tabela abaixo.

5. Visualização de resultados
Para gerar o gráfico QQ para o modelo Q, selecione os dados de resultado do modelo Q, depois vá à barra de ferramentas "Resultados" e clique em "Gráfico QQ". Isso abrirá uma caixa de diálogo, onde a coluna da esquerda contém os traços a serem analisados, e a coluna da direita mostra os traços a serem selecionados para análise. Selecione um único traço para gerar um gráfico QQ único, ou selecione múltiplos traços para gerar um gráfico QQ combinado. Normalmente, escolhe-se um único traço. Em seguida, clique em "Ok" para obter o gráfico QQ correspondente. O gráfico pode ser salvo clicando no botão "salvar" no canto inferior direito.
Fig. 11. Gráfico QQ.
Para gerar o gráfico de Manhattan para o modelo Q, selecione os dados de resultados do modelo Q, depois vá à barra de ferramentas "Resultados" e clique em "Gráfico de Manhattan." Isso abrirá uma caixa de diálogo. Clique em "Selecionar traço" para escolher um traço, depois clique em "Ok" para gerar o gráfico de Manhattan correspondente. O gráfico pode ser salvo clicando no botão "salvar" no canto inferior direito.
Fig. 12. Gráfico de Manhattan.
Isto é tudo sobre o TASSEL, existem outras análises de modelos, sintam-se à vontade para explorar mais!
Referência:
-
Peter J. Bradbury, et al. TASSEL: software para mapeamento de associações de características complexas em amostras diversas, Bioinformatics, Volume 23, Edição 19, Outubro de 2007, Páginas 2633–2635, Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, cole-o aqui e eu farei a tradução.