RNA-Seq para Análise de Expressão Gênica Diferencial: Introdução, Protocolo e Bioinformática

Introdução ao RNA-Seq para Expressão Gênica Diferencial

Gerar um perfil de expressão abrangente é fundamental ao estudar a biologia normal e os processos da doença. A transcriptoma é o conjunto completo de transcritos de uma célula ou população, e análise do transcriptoma revela a identidade e a quantidade de todas as moléculas de RNA. A correlação dos transcriptomas entre estágios de desenvolvimento, estados de doença em comparação com células normais, ou estímulos experimentais específicos em comparação com condições fisiológicas é uma aplicação essencial de RNA-seqEste tipo de análise requer a identificação de genes e os seus isoformas, bem como uma estimativa precisa da sua abundância ao comparar duas ou mais amostras. É crucial para decifrar os elementos funcionais do genoma e determinar a composição molecular, o que pode levar a novas percepções sobre os mecanismos biológicos do desenvolvimento e da doença. Cuffdiff, DESeq, DESeq2, EdgeR, PoissonSeq, Limma voom e MISO são algumas das ferramentas mais utilizadas para a expressão diferencial de genes.

Protocolo e Bioinformática em RNA-Seq para Análise de Expressão Génica Diferencial

Seguindo a etapa de pré-processamento RNA-seq A análise de DGE é utilizada para determinar como os níveis de transcritos diferem entre amostras. Uma vez que o microarranjo era, várias técnicas estatísticas foram estabelecidas que utilizam a cobertura de leitura para avaliar a abundância de transcritos. A técnica RPKM (reads per kilobase per million mapped reads) é amplamente utilizada para contabilizar a expressão e as contagens de leitura normalizadas em relação ao número total de leituras mapeadas e ao comprimento do gene. No entanto, além da cobertura de leitura, outros fatores como a profundidade de sequenciamento, o comprimento do gene e a abundância de isoformas influenciam a abundância aproximada de transcritos. Tem sido criticada porque o método RPKM trata todos RNA-seq lê-se quase igualmente, por exemplo, sem considerar os isoformas. RNA-Seq O Expectation-Maximization (RSEM) é uma ferramenta de software recentemente desenvolvida que fornece níveis de expressão de genes e isoformas precisos para espécies sem uma montagem de genoma de referência.

Figure 1. Workflow of RNA-seq analysis for gene expression. (Corchete, 2020)Figura 1. Fluxo de trabalho de análise de RNA-seq para expressão génica. (Corchete, 2020)

Até à data, a maioria dos algoritmos de análise de expressão gênica diferencial utiliza distribuições de probabilidade baseadas em contagens simples seguidas do teste exato de Fisher, sem levar em consideração a variabilidade biológica entre amostras. Enquanto RNA-seq os dados têm uma variabilidade técnica muito baixa quando comparados a microarray Os dados, a variabilidade biológica pode ser substancialmente reduzida através da avaliação de múltiplos replicados utilizando métodos derivados de permutação. Para a avaliação da variabilidade biológica, foi desenvolvida a análise serial da expressão génica, na qual conjuntos de dados de maior escala são utilizados para aproximar um parâmetro de dispersão adicional com base numa distribuição de Poisson estendida, permitindo uma capacidade de caracterização molecular extensa.

No entanto, um grande número de réplicas pode ser demasiado caro para a maioria das aplicações, por isso muitas técnicas estabelecidas superaram o problema modelando a variabilidade biológica e medindo a significância com um pequeno número de amostras, utilizando comparações par a par ou múltiplas comparações de grupos. Vários programas oferecem soluções bem concebidas para este propósito, e têm sido utilizados em numerosos estudos biomédicos e clínicos. O Cuffdiff do pacote Cufflinks, DESeq, DESeq2 e EdgeR são exemplos destes programas. Porque RNA-seq as contagens de leitura são números inteiros altamente enviesados que variam de zero a milhões, uma variedade de algoritmos de transformação tem sido utilizada para ajustar as contagens a modelos de distribuição estatística para a deteção de expressão diferencial. Para RNA-seq contagens, abordagens desenvolvidas para microarray A análise de dados baseada em distribuições contínuas foi melhorada. A função voom no pacote limma é um excelente exemplo de como transformar dados de contagem em dados distribuídos de forma Gaussiana, de modo que a significância estatística possa ser testada. Uma comparação abrangente do desempenho de vários pacotes de DGE foi recentemente publicada. No entanto, não conhecemos uma estratégia única que sirva para todos.

A ferramenta de Expressão Gênica Diferencial (DGE) realiza testes estatísticos com base na quantificação de genes expressos derivados da análise computacional de dados brutos. RNA-seq lê, como mapeamento e montagem, para determinar quais genes apresentam diferenças estatisticamente significativas. Também fornece informações relacionadas ao nível de expressão de cada gene e à magnitude das diferenças par a par. A análise de DGE pode oferecer insights substanciais sobre os mecanismos genéticos subjacentes às diferenças fenotípicas em organismos, incluindo padrões de crescimento de plantas, detecção de origens tumorais e estudos de comunidades microbianas.

Algoritmos para Mapeamento de Leitura

O passo computacional inicial no Sequenciação de RNA O pipeline de análise de dados envolve o mapeamento de leituras, um processo fundamental destinado a alinhar as sequências de leitura ao genoma ou transcriptoma de referência, identificando regiões genómicas que correspondem às sequências de leitura. Uma variedade de ferramentas de mapeamento foi desenvolvida para facilitar este processo. Em todas as situações, o processo de mapeamento começa com a construção de um índice para o genoma de referência ou conjunto de leituras, permitindo a recuperação rápida de locais potenciais na sequência de referência onde as leituras são mais propensas a alinhar. Subsequentemente, algoritmos mais lentos, mas mais sensíveis, são utilizados para alinhar as leituras dentro destas regiões candidatas.

Medição Digital da Expressão Génica

Após o mapeamento, cada leitura sequenciada alinhada a uma unidade codificadora (como um exon, transcrito ou gene) é utilizada na contagem, estimando assim o seu nível de expressão. O método mais prevalente para contagem envolve contabilizar o número de leituras que se sobrepõem aos exões dos genes. No fluxo de trabalho analítico, a quantificação da expressão gênica em Sequenciação de RNA os dados são tipicamente obtidos através de dois passos de computação: alinhar as leituras a um genoma ou transcriptoma de referência e, subsequentemente, estimar a abundância de genes e isoformas com base nas leituras alinhadas. Infelizmente, as leituras geradas pelos métodos mais comumente utilizados Sequenciação de RNA As tecnologias são frequentemente muito mais curtas do que as transcrições amostradas de que originam. Consequentemente, em cenários onde existem transcrições com sequências semelhantes, nem sempre é viável atribuir de forma única leituras curtas a genes específicos.

Vieses de Quantificação e Normalização

Numerosos estudos enfatizam a necessidade de uma normalização meticulosa dos dados antes de avaliar a expressão diferencial de genes, de modo a corrigir várias fontes de viés. O primeiro viés a considerar é a "profundidade de sequenciação" da amostra, definida como o número total de leituras sequenciadas ou mapeadas. Sequenciação de RNA As contagens também exibem preconceitos relacionados ao comprimento do gene: o número esperado de leituras mapeadas para um gene é proporcional à abundância e ao comprimento dos isoformas transcritas a partir desse gene.

Análise de Mineração de Dados

Nos últimos anos, a pesquisa na área de Sequenciação de RNA florido, levando ao surgimento de várias ferramentas de deteção de expressão gênica diferencial. Os métodos mais simples para detectar a expressão gênica diferencial baseiam-se em testes estatísticos para determinar quais genes apresentam alterações estatisticamente significativas na expressão sob diferentes condições. Métodos não paramétricos poderiam teoricamente ser utilizados. No entanto, devido ao número limitado de réplicas normalmente disponíveis em Sequenciação de RNA Em experimentos, os métodos não paramétricos muitas vezes carecem de poder de deteção suficiente, tornando os métodos paramétricos mais populares. Dada uma contagem específica de sequências de RNA, todas as ferramentas para analisar a expressão diferencial de genes incluem dois passos principais: estimar os parâmetros do modelo com base nos dados e detectar genes expressos diferencialmente utilizando testes estatísticos.

Conclusão

RNA-Seq é uma tecnologia de ponta que está a revolucionar a análise da expressão diferencial de genes, proporcionando uma visão sem igual da paisagem transcriptómica. Este método capacita os investigadores a identificar e medir moléculas de RNA com uma precisão notável, desvendando os intrincados mecanismos da regulação genética em condições fisiológicas e patológicas. A adaptabilidade de RNA-Seq transcende as fronteiras disciplinares, abrangendo desde a investigação biológica fundamental até investigações clínicas, estabelecendo-se como um ativo indispensável na biologia molecular contemporânea. Os avanços nas metodologias de sequenciação prometem melhorar a eficácia e a acessibilidade de RNA-Seq mais longe. A paisagem futura pode apresentar técnicas de RNA-Seq de célula única refinadas, sequenciação de leitura longa para uma reconstrução do transcriptoma melhorada, e estratégias multi-ômicas integradas que amalgamam RNA-Seq dados com conjuntos de dados moleculares diversos para oferecer uma compreensão abrangente dos processos celulares.

Se quiser saber mais sobre a análise da expressão diferencial de genes e o processo de análise de dados de sequenciação de RNA, pode consultar os nossos artigos "O que é Análise de Expressão Gênica Diferencial?" e "Fluxo de Trabalho de Bioinformática de RNA-Seq.

Referências:

  1. Wang T, Li B, Nelson CE, Nabavi S. Análise comparativa de ferramentas de análise de expressão gênica diferencial para dados de sequenciação de RNA de célula única. BMC bioinformática. Dez 2019;20(1).
  2. Lamarre S, Frasse P, Zouine M, et al. Otimização de uma análise de expressão gênica diferencial por RNA-Seq em função do número de réplicas biológicas e do tamanho da biblioteca. Fronteiras em ciência das plantas. 2018 Fev 14;9.
  3. Costa-Silva J, Domingues D, Lopes FM. Análise de expressão diferencial por RNA-Seq: Uma revisão alargada e uma ferramenta de software. PloS One21 de dezembro de 2017; 12(12).
  4. Corchete LA, Rojas EA, Alonso-López D, et al. Comparação e avaliação sistemática de procedimentos de RNA-seq para análise quantitativa da expressão génica. Relatórios científicos. 2020, 12 de novembro;10(1).
  5. McDermaid A, Monier B, Zhao J, et al. Interpretação dos resultados de expressão gênica diferencial de dados de RNA-seq: revisão e integração. Briefings em bioinformática, 2019, 20(6): 2044-2054.
  6. Finotello F, Di Camillo B. Medição da expressão diferencial de genes com RNA-seq: desafios e estratégias para a análise de dados. Briefings em genómica funcional, 2015, 14(2): 130-142.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo