Pipeline de Análise de Dados de Microarranjos

O que é Microarray

Microarranjo é uma plataforma experimental poderosa que pode estudar simultaneamente a expressão de milhares de genes sob diferentes condições experimentais. O comum técnicas de microarranjos incluir microarray de SNP, microarranjo CGH, expressão génica utilizando microarrays de ADN, microarray de metilação de DNA, etc. O objetivo geral do microarray A análise de dados envolve a geração de dados de expressão bruta e a determinação da sua significância biológica. O processo típico pode ser dividido nas seguintes etapas (Figura 1): pré-processamento, análise de genes diferencialmente expressos, descoberta de classes e previsão, bem como anotação.

Figure 1. Typical process of microarray data analysis.Figura 1. O processo típico de análise de dados de microarrays.

Como Analisar Dados de Microarranjos

Pré-processamento

Pré-processamento de microarranjo os dados geralmente incluem análise de imagem, avaliação de qualidade e normalização.

  • Análise de imagem

Diferentes configurações de digitalização podem resultar em imagens diferentes que podem afetar os resultados experimentais. As imagens geradas são então quantificadas utilizando pacotes como o Imagene ou o GenePix. As intensidades são geralmente medidas como o valor médio ou mediano do pixel na região dada.

  • Avaliação da qualidade

A avaliação da qualidade começa com a exame visual das imagens e gráficos dos dados brutos. Pesquisadores experientes conseguem identificar quais matrizes no conjunto têm qualidade inferior ou se algumas regiões são incomuns devido a riscos, etc. Gráficos espaciais também podem ajudar a identificar regiões com sinal incomum.

  • Normalização

Uma parte importante da pré-processamento de dados é a normalização, que ajusta as intensidades individuais de forma a permitir comparações tanto dentro de um conjunto de dados como entre conjuntos de dados no experimento. Exemplos de diferenças que precisam ser ajustadas incluem quantidades desiguais de RNA, diferenças na rotulagem e vieses sistemáticos.

A forma de ajuste mais comumente aceita atualmente é o lowess (mínimos quadrados localmente ponderados). microarranjo análise de dados) (Figura 2). Embora este método remova diferenças de corante e intensidade, não elimina padrões espaciais. Para alguns arrays, como os arrays Agilent, as pontas de impressão não são utilizadas durante a fabricação, tornando difícil dividir o array em sub-redes para remover padrões espaciais. Uma alternativa nesta situação é utilizar suavização bidimensional.

Figure 2. M vs A plots comparing raw unadjusted data (left) with data after lowess normalization (right) (Corporation H P. 2004).Figura 2. Gráficos M vs A para dados brutos não ajustados (à esquerda) e após normalização lowess (à direita) (Corporation H P. 2004).

Para analisar um grupo de lâminas, a maioria dos métodos estatísticos assume que as lâminas têm distribuições iguais de níveis de intensidade; caso contrário, uma lâmina pode influenciar injustamente os resultados. A forma mais fácil de lidar com este problema é escalar todos os arrays de modo a terem variância igual, ou adicionando covariáveis das lâminas ao modelo utilizado para analisar os dados. (Figura 3).

Figure 3. Boxplots illustrating the distribution of M values across 6 arrays hybridized in the same experiment, before (left) and after (right) scale normalization (Corporation H P. 2004).Figura 3. Boxplots mostrando a distribuição dos valores M em cada uma das 6 matrizes hibridizadas como parte do mesmo experimento, antes (esquerda) e depois (direita) da normalização de escala (Corporation H P. 2004).

Genes diferencialmente expressos

Um objetivo chave de microarranjo os experimentos visam identificar genes que são diferencialmente expressos nas condições estudadas. Assim, o processo de análise pode ser tipicamente dividido em duas etapas: 1) filtragem para identificar aqueles genes diferencialmente expressos utilizando uma combinação de critérios, incluindo a mudança de dobra e a significância estatística determinada por estatísticas de comparação, e 2) separação desses genes diferencialmente expressos em grupos ou clusters discretos com base no padrão de expressão.

  • Identificação de genes diferencialmente expressos

Sob ambas as condições experimentais, o teste t e o teste de Wilcoxon são métodos padrão comuns para a expressão diferencial de genes entre duas amostras. Sob duas ou mais condições experimentais, o modelo ANOVA e o modelo de efeitos mistos podem ser aplicados de forma eficaz. O analisador de arrays S+ inclui vários métodos para comparações de duas amostras e comparações de múltiplas amostras, incluindo vários tipos de testes t e testes de Wilcoxon baseados tanto em distribuições quanto em distribuições nulas baseadas em permutação. Independentemente das estatísticas de teste utilizadas, comparações múltiplas são uma consideração importante, dado o número de genes e testes.

  • Identificação de padrões de expressão

Após ter identificado uma lista de genes com níveis de expressão diferencial, precisamos classificar ainda mais esses genes com base em padrões de expressão. Métodos de agrupamento são ferramentas descritivas ou exploratórias que podem ser usadas para identificar grupos dentro de conjuntos de dados complexos. Métodos como o agrupamento hierárquico podem ser utilizados para ajudar a identificar padrões em um grande conjunto de dados, enquanto métodos de particionamento, como o agrupamento K-means, podem ser usados para separar os dados em grupos ou clusters discretos.

Figure 4. Hierarchical clustering results.Figura 4. Agrupamento hierárquico.

Figure 5. Results of K-means clustering.Figura 5. Agrupamento K-means.

Descoberta e previsão de classes

Os estudos de descoberta e previsão de classes têm implicações para a classificação de tumores e a personalização. Os métodos tradicionais de classificação de tumores são maioritariamente baseados na análise morfológica, que não é tão precisa. Microarranjos pode fornecer uma ferramenta mais fiável para a identificação de subclasses através da deteção de marcadores moleculares.

Os métodos de previsão de classes disponíveis no S-PLUS incluem todos os métodos padrão de modelagem estatística e aprendizagem supervisionada, como regressão, funções discriminantes, árvores (CART e partição recursiva), redes neuronais, modelos aditivos generalizados e máquinas de vetores de suporte.

Anotação

  • Relatório

Existem vários metadados de anotação disponíveis para qualquer gene específico. Exemplos incluem Unigene, LocusLink, número do cromossoma, localização cromossómica, informações sobre vias KEGG e categorizações de Gene Ontology (GO). A microarranjo o conjunto de dados envolve tipicamente um conjunto de identificadores conhecidos correspondentes às sondas/probabilidades utilizadas. Estes identificadores são tipicamente únicos e podem ser facilmente ligados à fonte de metadados, de modo que cada conjunto de sondas/perguntas no microarranjo o chip é utilizado para encontrar várias anotações. Os genes são anotados utilizando algumas bases de dados online (como Unigene, LocusLink, GO/Amigo).

  • Implantação

Informação Mínima Sobre um Microarranjo Os padrões MIAME (Minimum Information About a Microarray Experiment) descrevem a informação mínima necessária para interpretar. microarranjo dados e garantir que os resultados derivados da sua análise possam ser verificados de forma independente. As informações necessárias incluem dados como plataforma de array, desenho experimental e preparação de amostras. O padrão MIAME é utilizado como guia para a submissão. microarranjo informação sobre dados e métodos em muitas revistas, e muitas revistas agora exigem que os autores tornem os seus dados públicos como um requisito para a publicação. A lista MIAME está disponível em Microarranjo Website de Dados de Expressão Génica (MGED).

Conclusão

Tecnologia de microarranjos apresenta vantagens notáveis para estudos genómicos de alto rendimento, permitindo a análise simultânea de numerosos genes. Os seus principais méritos residem na sua capacidade de fornecer perfis de expressão génica extensos, detectar genes expressos diferencialmente e desvendar caminhos biológicos complexos. Microarranjos provar-se particularmente valioso em várias aplicações, como diagnóstico de doenças, descoberta farmacêutica e medicina individualizada, onde a compreensão dos padrões de expressão génica é fundamental. O microarray o processo de análise de dados abrange várias etapas cruciais para garantir a precisão e a fiabilidade dos dados. Em essência, microarranjo a análise de dados representa uma abordagem robusta para investigar a expressão génica de forma abrangente. A sua metodologia abrangente, que vai desde o pré-processamento de dados até análises estatísticas e funcionais sofisticadas, estabelece-a como um recurso indispensável em genómica pesquisa, aprofundando a nossa compreensão de sistemas biológicos intricados e impulsionando o progresso científico.

Leituras Adicionais:

Os Princípios e o Fluxo de Trabalho do Microarray de SNP

As Aplicações do Microarray de SNP

Referências:

  1. Corporação H P. Análise de dados de microarranjos: Das hipóteses às conclusões utilizando dados de expressão génica. Oncologia Celular, 2004, 26(5-6):279-290.
  2. Gaw E. Análise de Dados de Microarranjos. Bioinformática Aplicada, 2011, 6(3):95-9.
  3. Olson N E. O processo de análise de dados de microarranjos: dos dados brutos à significância biológica. Cartas em Biotecnologia, 2007, 3(3):373-383.
  4. O'Connell M. Expressão diferencial, descoberta de classes e previsão de classes usando S-PLUS e S+ArrayAnalyzer. Acm Sigkdd Boletim de Explorações, 2003, 5(2):38-47.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo