Quais são as Ferramentas de Análise GWAS

Quais são as Ferramentas de Análise GWAS?

Este artigo fornece uma visão geral das principais ferramentas e metodologias utilizadas em GWAS, incluindo uma introdução a softwares comumente usados, como TASSEL, PLINK e GEMMA, entre outros. Também orienta os investigadores através do processo de realização de análises GWAS, desde a preparação de dados até a visualização de resultados, utilizando ferramentas como gráficos QQ e gráficos de Manhattan para interpretar as descobertas. Quer seja novo em GWAS ou um investigador experiente, este guia proporcionará insights valiosos sobre as aplicações práticas e as melhores práticas para a realização de GWAS.

Introdução aos GWAS

Estudo de Associação em Todo o Genoma (GWAS) é um método de pesquisa utilizado para analisar as associações entre genótipos e fenótipos, amplamente aplicado na descoberta da base genética de características complexas. GWAS identifica marcadores genéticos associados a doenças específicas, características ou outros fenótipos, desempenhando um papel significativo na prevenção de doenças, desenvolvimento de medicamentos e medicina personalizada.

Ao analisar dados genómicos de grandes populações amostrais, os GWAS visam identificar polimorfismos de nucleótido único (SNPs) associados a características particulares. Essas associações podem revelar potenciais biomarcadores ou orientar direções futuras de pesquisa.

Principais Ferramentas de Análise GWAS

Resumimos informações sobre ferramentas de análise GWAS comumente utilizadas, incluindo EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL e FastLMM, numa tabela que detalha as suas principais características, velocidade computacional e ano de publicação. Cada ferramenta de software oferece vantagens analíticas únicas e é adequada para cenários específicos. Selecionar a ferramenta mais apropriada com base nas necessidades de pesquisa específicas e nas características dos dados é crucial para garantir a precisão e a fiabilidade dos resultados da análise GWAS.

Nome do Software Características Principais Velocidade de Cálculo Ano de Publicação Link de Referência
EMMAX Baseado no Modelo Linear Misturado (MLM), este considera a estrutura populacional e a parentesco.
Suporta a análise de variantes raras e varreduras em todo o genoma.
Rápido, otimizado para grandes volumes de dados. 2010 Referência EMMAX
GEMMA Suporta tanto Modelos de Mistura Latente (MLM) como Modelos Lineares Generalizados (GLM). Ajusta para a estrutura populacional e efeitos ambientais. Lida com características binárias e de múltiplas classes. Rápido e eficiente para grandes conjuntos de dados. 2012 Referência GEMMA
FarmCPU Combina Modelos de MLM e Efeitos Fixos (FIXED). Melhora a precisão de deteção de loci causais, especialmente na investigação agrícola. Melhora a precisão de deteção de loci causais, especialmente na investigação agrícola. Matriz esparsa moderada e otimizada. 2016 Referência do FarmCPU
PLINK Projetado para controlo de qualidade de dados genotípicos em larga escala e análise de GWAS. Oferece vários métodos estatísticos, incluindo associações de ponto único e correções múltiplas. Rápido, particularmente adequado para pré-processamento. 2007 Referência PLINK
PISCAR Uma ferramenta GWAS otimizada usando o Critério de Informação Bayesiano (BIC). Detecta efetivamente sinais com taxas de falsos positivos reduzidas. Relativamente rápido, adequado para dados de média escala. 2018 Referência BLINK
MLM(GAPIT3) Modelo Linear Misturado que considera a estrutura populacional ao incorporar efeitos aleatórios. Moderado, o desempenho diminui com conjuntos de dados maiores. 2021 Referência GAPIT3
SUPER Uma abordagem MLM otimizada utilizando "Super Indivíduos" para modelagem. Melhora a eficiência computacional e reduz as taxas de falsos positivos. Rápido, adequado para dados em grande escala. 2014 SUPER Referência
CMLM Modelo Linear Misto Condicional, uma melhoria em relação ao MLM padrão. Aumenta a eficiência e a precisão na deteção de associações. Moderado, mais lento à medida que o número de condições aumenta. 2010 Referência CMLM
MLMM Modelo Misturado MultiLocus que adiciona incrementalmente efeitos fixos para melhorar a deteção de sinais em GWAS. Moderado, adequado para conjuntos de dados pequenos a médios. 2012 Referência MLMM
fastGWA Implementação otimizada de MLM, projetada para estudos genómicos humanos em larga escala. Capaz de processar milhões de amostras e SNPs rapidamente. Extremamente rápido, lida eficientemente com conjuntos de dados ultra-grandes. 2020 fastGWA Referência
GenABEL Pacote GWAS baseado em R. Fornece uma solução abrangente desde o controlo de qualidade dos dados até à análise de associação. Lento, adequado para pequenos conjuntos de dados ou estudos exploratórios. 2007 Referência GenABEL
FastLMM Um algoritmo rápido baseado em modelos mistos lineares, otimizado para matrizes esparsas. Suporta análise conjunta de traços únicos e múltiplos. Rápido, adequado para dados de genótipo em grande escala. 2012 Referência FastLMM
TASSELO Integra GLM e MLM para análise, amplamente utilizado em pesquisa genética de plantas. Suporta análise integrada de dados fenotípicos, genotípicos e ambientais. Oferece modos de interface gráfica e linha de comando. Rápido, adequado para conjuntos de dados de vários tamanhos. 2007 Referência TASSEL

Análise GWAS pelo Tassel

A maioria do software mencionado requer um certo nível de proficiência em programação. No entanto, o TASSEL fornece um ambiente compilado completo e um pacote de instalação com uma interface gráfica de utilizador. Sendo uma das primeiras ferramentas de GWAS lançadas, é amplamente utilizada na área da genética de plantas.

O TASSEL oferece capacidades abrangentes de processamento, análise e visualização de dados. A seguir, são apresentados os passos detalhados para realizar a análise GWAS utilizando o TASSEL.

1. Software de instalação

Instalação do TASSEL

Os utilizadores precisam primeiro de descarregar o pacote de instalação do TASSEL 5 a partir do site oficial ou de outras fontes fiáveis. Existe um site fiável https://tassel.bitbucket.io.

Este software pode ser instalado em diferentes sistemas operativos, note que o Mac OS precisa ser instalado com direitos de administrador, caso contrário, será reportado um erro.

TASSEL software download.Fig. 1. Página de download do software TASSEL.

Compreensão da interface de software

Ficheiro: Usado para abrir e guardar dados, assim como para sair de operações.

TASSEL File menu.Fig. 2. Menu Ficheiro TASSEL.

Dados: Realizar operações nos dados importados, como ordenação, interseção e união.

TASSEL Data menu.Fig. 3. Menu de Dados TASSEL.

Imputar: Preencher dados, incluindo diferentes métodos de preenchimento.

TASSEL Impute menu.Fig. 4. Menu Impute do TASSEL.

Filtro: Realizar controlo de qualidade dos dados.

TASSEL Filter menu.Fig. 5. Menu de Filtro TASSEL.

Análise: Inclui módulos muito importantes, como Parentesco, PCA, MDS, métodos de Resumo Geno, mas também GLM (modelo linear geral) e MLM (modelo linear misto).

TASSEL Analysis menu.Fig. 6. Menu de Análise TASSEL.

Resultados: Principalmente é o resultado da visualização, incluindo o diagrama LD, diagrama QQ, diagrama de Manhattan, entre outros.

TASSEL Results menu.Fig. 7. Menu de Resultados do TASSEL.

2.Importação de Dados

Preparação de Dados

Quatro tipos de ficheiros são necessários para a análise GWAS.

  • Arquivo de Genótipo: Contém a informação do genótipo das amostras, tipicamente no formato Hapmap.
  • Ficheiro de Parentesco: Usado para analisar as relações de parentesco entre amostras.
  • Arquivo de Estrutura Populacional: Usado para avaliar a estrutura populacional das amostras.
  • Ficheiro de Fenótipo: Contém informações fenotípicas correspondentes às amostras, como estado da doença ou medições de traços.

O pacote de instalação deste software vem com uma pasta TutorialData, que contém os 4 ficheiros necessários para GWAS, e o formato do ficheiro é .txt.

TASSEL software TutorialDate foloder context.Fig. 8. Tutorial do software TASSEL - Pasta de data.

Após abrir o software TASSEL, o primeiro passo é importar os quatro tipos de dados. Clique em "Ficheiro" na barra de ferramentas e seleccione "Abrir", o que fornecerá opções para importar dados. Selecione o ficheiro .txt apropriado de uma pasta específica e depois clique em "OK" para importar os dados.

TASSEL import genotype data.Fig. 9. Dados de genótipo importados do TASSEL.

Ao analisar os seus próprios dados, os dados fenotípicos são tipicamente fornecidos pelo utilizador, pelo que deve prestar atenção ao formato dos dados fenotípicos. A primeira coluna do ficheiro deve conter o rótulo <Trait>, a segunda coluna deve incluir os traços a serem analisados, e a terceira coluna, juntamente com as colunas subsequentes, deve representar os traços a serem analisados (um para cada um). O conteúdo sob o rótulo <Trait> deve listar os nomes dos materiais a serem analisados.

3. Controlo da Qualidade dos Dados

Controlo de Qualidade dos Dados de Genótipo:

Selecione os dados do genótipo, depois vá para a barra de ferramentas "Filtrar" e clique em "Locais." Na caixa de diálogo, clique em "Remover estados SNP menores" e depois clique em "Filtrar." Isto irá gerar os dados com controlo de qualidade, que serão usados para análises subsequentes.

TASSEL fliter genotype data.Fig. 10. Dados de genótipo do filtro TASSEL.

Controlo de Qualidade dos Dados da Estrutura Populacional:

Selecione os dados da estrutura populacional, depois vá para a barra de ferramentas "Filtrar" e clique em "Características." Na caixa de diálogo, mude a coluna "Tipo" em "dados" para "covariável," remova uma marca de verificação na coluna "Incluir" e, em seguida, clique em "OK." Isto irá gerar os dados da estrutura populacional com controle de qualidade.

4. Análise GLM

O Modelo Linear Generalizado (GLM) é utilizado para analisar o modelo Q. Ao realizar a análise do modelo Q, são necessários três tipos de dados: dados de genótipo com controlo de qualidade, dados de estrutura populacional com controlo de qualidade e dados fenotípicos. Selecione estes três conjuntos de dados mantendo pressionada a tecla Ctrl, depois vá à barra de ferramentas "Dados" e clique em "Interseção de Juntos". Isso irá gerar um novo ficheiro, que contém os dados intersecados dos três conjuntos de dados.

Selecione os dados interseccionados, depois vá à barra de ferramentas "Análise" e clique em "GLM". Na caixa de diálogo que aparece, clique em "OK" para gerar os dados de resultado do modelo Q, conforme mostrado na tabela abaixo.

5. Visualização de resultados

Para gerar o gráfico QQ para o modelo Q, selecione os dados de resultado do modelo Q, depois vá à barra de ferramentas "Resultados" e clique em "Gráfico QQ". Isso abrirá uma caixa de diálogo, onde a coluna da esquerda contém os traços a serem analisados, e a coluna da direita mostra os traços a serem selecionados para análise. Selecione um único traço para gerar um gráfico QQ único, ou selecione múltiplos traços para gerar um gráfico QQ combinado. Normalmente, escolhe-se um único traço. Em seguida, clique em "Ok" para obter o gráfico QQ correspondente. O gráfico pode ser salvo clicando no botão "salvar" no canto inferior direito.

QQ plot by TASSEL.Fig. 11. Gráfico QQ.

Para gerar o gráfico de Manhattan para o modelo Q, selecione os dados de resultados do modelo Q, depois vá à barra de ferramentas "Resultados" e clique em "Gráfico de Manhattan." Isso abrirá uma caixa de diálogo. Clique em "Selecionar traço" para escolher um traço, depois clique em "Ok" para gerar o gráfico de Manhattan correspondente. O gráfico pode ser salvo clicando no botão "salvar" no canto inferior direito.

Manhattan plot by TASSEL.Fig. 12. Gráfico de Manhattan.

Isto é tudo sobre o TASSEL, existem outras análises de modelos, sintam-se à vontade para explorar mais!

Referência:

  1. Peter J. Bradbury, et al. TASSEL: software para mapeamento de associações de características complexas em amostras diversas, Bioinformatics, Volume 23, Edição 19, Outubro de 2007, Páginas 2633–2635, Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, cole-o aqui e eu farei a tradução.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo