Sequenciamento Homólogo (Iso-Seq) é um sequenciação em tempo real de molécula única (SMRT) tecnologia desenvolvida pela PacBio, que pode gerar sequências de transcritos de comprimento total, evitando assim o complicado passo de reconstrução do transcriptoma na sequenciação tradicional do transcriptoma. Ao sequenciar diretamente as regiões não traduzidas 5' e 3' e as caudas de poliadenilação do cDNA, esta técnica pode capturar completamente transcritos de comprimento total, incluindo isómeros de splicing, splicing alternativo, poliadenilação alternativa (APA), eventos de fusão de genes e RNA longo não codificante (lncRNA).
Visão geral da análise Iso-Seq
O fluxo de trabalho da tecnologia Iso-Seq inclui a preparação de cDNA a partir de amostras de RNA, a transformação em uma biblioteca adequada para sequenciação e, em seguida, a sequenciação utilizando a plataforma Sequel ou Seeq II. Após a sequenciação, os dados foram analisados por ferramentas bioinformáticas especiais, como extração de segmentos de leitura FLNC, correção de erros, alinhamento e identificação de homologia. Estas ferramentas podem gerar sequências de transcritos de alta qualidade e suportar uma variedade de análises subsequentes, como anotação de genes, análise de expressão diferencial, deteção de eventos de splicing e previsão de função gênica.
A tecnologia Iso-Seq demonstrou um vasto potencial de aplicação na investigação de plantas, animais e humanos. Por exemplo, no campo das plantas, é utilizada para revelar o mecanismo de regulação da expressão génica, a rede de regulação epigenética e a complexidade do transcriptoma. Na investigação médica, ajuda a identificar mutações genéticas relacionadas com doenças e anomalias de splicing. Além disso, o Iso-Seq também pode detectar transcritos de baixa abundância ou raros, o que muitas vezes é difícil de alcançar na RNA-seq.
Fluxo de trabalho de análise de dados para análise de dados Iso-Seq (Shannon et al., 2013)
Importância de dominar a interpretação de dados em Iso-Seq
É muito importante para os investigadores dominarem a capacidade de análise de dados Iso-Seq pelas seguintes razões:
Melhorar a precisão dos dados: A interpretação dos dados Iso-Seq geralmente contém informações biológicas ricas, mas a sua complexidade exige que os investigadores tenham uma forte capacidade de análise de dados. Por exemplo, a precisão da anotação de transcrições pode ser significativamente melhorada ao lidar corretamente com os segmentos de leitura FLNC, removendo erros e comparando-os. Além disso, escolher ferramentas de análise apropriadas (como PRAPI, TAGET, etc.) para diferentes problemas de investigação pode aumentar ainda mais a fiabilidade dos resultados.
Revelando a complexidade do transcriptoma: o Iso-Seq pode detectar isómeros de transcritos e eventos de splicing que são difíceis de encontrar na RNA-seq tradicional. Por exemplo, pode detectar RNA não codificante longo, splicing alternativo e eventos de fusão de genes. Portanto, dominar o processo de análise de dados é útil para compreender plenamente o mecanismo de regulação da expressão génica e a diversidade do transcriptoma.
Apoiar a análise de integração multi-ómica: Os dados de Iso-Seq podem ser combinados com outros dados ómicos (como ómicas de proteínas, epigenética, etc.) para fornecer insights biológicos mais abrangentes. Por exemplo, ao integrar dados de Iso-Seq com dados de expressão génica, a função dos genes e a correlação com doenças podem ser previstas de forma mais precisa.
Otimização do design experimental: Uma compreensão profunda do processo de análise de dados pode ajudar os investigadores a otimizar o design experimental. Por exemplo, ao ajustar a profundidade de sequenciação e a estratégia de construção de bibliotecas, a qualidade dos dados pode ser maximizada e o desperdício de recursos pode ser reduzido.
Promover a cooperação interdisciplinar: A análise de dados Iso-Seq envolve uma variedade de ferramentas e tecnologias de bioinformática, o que requer que os investigadores tenham um conhecimento interdisciplinar. Por exemplo, os investigadores precisam de compreender princípios estatísticos, algoritmos de bioinformática e princípios de design experimental para completar a análise de dados de forma eficiente e explicar os resultados.
Serviços que pode estar interessado em
Quer saber mais sobre os detalhes do Iso-seq? Veja estes artigos.:
O processo de geração de dados Iso-seq é complexo e rigoroso. O primeiro passo é a preparação da amostra, que necessita de extrair RNA total de alta qualidade de tecidos, células ou amostras biológicas específicas, e a integridade e pureza do RNA devem ser elevadas, para não afetar o sequenciamento subsequente.
Preparação de Amostras
Extração de RNA e controlo de qualidade: A extração de RNA geralmente utiliza métodos padrão, como o Easy-Spin Plant RNA Extraction Kit ou o Qiagen RNeasy Mini Kit, para garantir a integridade e pureza do RNA. A integridade do RNA (valor RIN) geralmente requer ≥7.0. O RNA extraído precisa passar por uma avaliação de qualidade, incluindo testes de concentração e integridade, como análise com NanoDrop ou Agilent Fragment Analyser. O RNA total geralmente precisa de ≥200 ng para satisfazer as necessidades de amplificação subsequente.
Síntese de cDNA e construção de biblioteca: O kit de síntese de cDNA Clontech SMARTer PCR foi utilizado para sintetizar a primeira fita de cDNA. O kit suporta a geração de cDNA de comprimento completo a partir de RNA total ou RNA polyA+, e a quantidade mínima de partida é de 2 ng de RNA total ou 1 ng de RNA polyA+. A transcriptase reversa SMARTScribe irá sintetizar a fita complementar de cDNA a partir da extremidade do polyA e adicionar nucleótidos de adenina adicionais quando o mRNA atingir a extremidade 5', fornecendo assim uma sequência 3' universal para a síntese da segunda fita. A segunda fita de cDNA foi amplificada pela polimerase de DNA KAPA HiFi. No processo de construção da biblioteca, podemos escolher o método sem seleção de tamanho ou com seleção de tamanho.
Operação de sequenciamento
Fluxo de trabalho de sequenciação PacBio: Após a preparação da biblioteca, a biblioteca de cDNA é transformada em um template SMRTbell adequado para sequenciação utilizando o kit de preparação de template SMRTbell da PacBio (como o Template Prep Kit 2.0). A biblioteca de templates foi carregada na plataforma de sequenciação PacBio Sequel II ou Sequel IIe através do kit químico P6 ou P7 para sequenciação. O tempo de sequenciação é geralmente de 6 horas, mas o tempo específico depende da profundidade de cobertura alvo e da complexidade da amostra. Os dados gerados no processo de sequenciação incluem a sequência de consenso cíclica (CCS) e a sequência de consenso acíclica (FLCC), onde a CCS é utilizada para gerar transcritos completos de alta qualidade, enquanto a FLCC é utilizada para detectar sequências de baixa qualidade ou amplificadas de forma incompleta.
Formato de saída de dados: Os dados de sequenciação PacBio são geralmente apresentados no formato BAM, incluindo dados de leitura originais, leituras válidas filtradas e informações de anotação. Após o processamento dos dados, podem ser gerados vários ficheiros de saída, incluindo:
Iso-seq análise de dados utiliza algoritmos e ferramentas especiais para processar a leitura longa e os dados de sequência longa obtidos por sequenciação, de modo a realizar o reconhecimento completo de transcritos, análise de splicing alternativo, deteção de fusões genéticas, descoberta de novos transcritos e quantificação do nível de expressão génica, analisando assim de forma abrangente e profunda a complexidade e diversidade do transcriptoma.
Pré-tratamento e controlo de qualidade
Filtragem de dados brutos: Antes da análise subsequente, os dados originais de RNA-seq precisam ser avaliados e filtrados primeiro. Isso inclui a remoção de segmentos de leitura de baixa qualidade, segmentos de leitura não classificados e sequências de adaptadores. Ferramentas comumente usadas incluem FastQC, Trimmomatic, entre outras. Estas ferramentas podem detectar contaminação, taxa de erro de base e sequências sobre-expressas nas amostras. Especificamente, o FastQC é utilizado para avaliar preliminarmente a qualidade dos segmentos de leitura e gerar relatórios de qualidade para ajudar os utilizadores a entender as características de leitura de cada amostra.
Correção de erros e avaliação de qualidade: Para dados de leitura longa de alta qualidade, como os dados da tecnologia Iso-Seq, são necessárias correções de erros e avaliações de qualidade adicionais. Por exemplo, os segmentos de leitura podem ser podados utilizando a ferramenta HTSeq para reduzir a taxa de erro e melhorar a precisão da análise subsequente. Além disso, a qualidade do segmento de leitura também pode ser avaliada por indicadores como o valor Q (q = log10(p × N)), onde n é o comprimento do segmento de leitura.
Reconstrução do transcriptoma e reconhecimento de isómeros
Ferramentas e software de análise Iso-Seq A análise de dados Iso-Seq geralmente requer ferramentas e software especiais.
Anotação e comparação com o genoma de referência: Após a reconstrução do transcriptoma, é necessário comparar o transcrito reconstruído com o genoma de referência. Este passo é geralmente realizado utilizando ferramentas de comparação como o SAMtools ou o BWA. Após o alinhamento, ferramentas como o Trinity e o HTSeq podem ser utilizadas para analisar ainda mais os transcritos, incluindo a identificação de isómeros, a estimativa dos níveis de expressão e a deteção de eventos de splicing. Para a identificação de isómeros, também podemos utilizar métodos como a Análise de Dois Passos de Isóformos (I2A) para estudar a diferença na expressão gênica comparando a abundância de isómeros em diferentes amostras.
Pipeline de análise do Iso-Sep (Kariuki et al., 2023)
O processo de análise de dados Iso-Seq inclui duas partes principais: pré-tratamento e controlo de qualidade, bem como reconstrução do transcriptoma e identificação de isómeros. Na fase de pré-processamento, o foco está na filtragem de dados de baixa qualidade e na correção de erros; na fase de reconstrução do transcriptoma, é necessário utilizar ferramentas e software especiais para processar os dados de leitura longa e compará-los com o genoma de referência para identificar isómeros. Este processo assegura a precisão e fiabilidade da análise de dados e fornece uma base sólida para a investigação subsequente da expressão génica.
Os dados de Iso-seq podem analisar de forma abrangente e precisa a estrutura dos transcritos, fornecendo informações de transcritos completos de alta precisão para compreender a função dos genes, o mecanismo regulatório e as alterações no transcriptoma relacionadas com doenças.
Identificação de eventos de splicing alternativo
A splicing alternativo (AS) é um importante mecanismo regulador pós-transcricional em eucariotos, que produz muitos isómeros de proteínas através da junção de diferentes combinações de exões. O método para identificar eventos de AS inclui:
Visão de comparação do SpliceSeq de diferentes amostras de pacientes (Michael et al., 2012)
Quantificação dos níveis de expressão de transcritos
A quantificação do nível de expressão de transcritos é um passo importante para compreender a função e regulação dos genes.
Anotação funcional e análise de vias
A anotação funcional e a análise de vias dos eventos de AS são úteis para revelar a sua significância biológica.
Visualização de dados Iso-Seq
A visualização de dados Iso-Seq é um passo fundamental para mostrar a complexidade do transcriptoma.
O design geral e a visualização do Iso-Seq (Gao et al., 2018)
O Iso-seq pode sequenciar diretamente o transcrito completo através da plataforma de sequenciação de moléculas únicas PacBio, sem interromper o RNA, o que permite identificar com precisão a informação estrutural dos genes, como splicing alternativo, local de iniciação da transcrição e cauda poliA, fornecendo informações abrangentes e precisas sobre transcritos de comprimento total para a pesquisa do transcriptoma.
Análise Iso-Seq bem-sucedida em pesquisa publicada
Estudo sobre o transcriptoma de plantas: A tecnologia Iso-Seq demonstrou vantagens notáveis no estudo do transcriptoma de plantas. Por exemplo, através da tecnologia PacBio SMRT, os investigadores podem gerar sequências de cDNA de comprimento completo, incluindo regiões não traduzidas 5' e 3' e caudas de poliadenilação, evitando assim a etapa de reconstrução do grupo de transcrição. Isso permite que o Iso-Seq detete informações como splicing alternativo, local de iniciação da transcrição e local de poliadenilação de forma mais precisa, e fornece uma ferramenta importante para a caracterização de redes regulatórias epigenéticas.
Análise do transcriptoma de soja: Na investigação sobre o soja, a tecnologia Iso-Seq foi utilizada para analisar de forma abrangente a expressão de genes e alelos. Foi constatado que os dados de Iso-Seq cobriam mais de 80% dos locais de cobertura do RNA-Seq, e alelos de alta abundância que o RNA-Seq não conseguia identificar puderam ser detectados. Isso demonstra que o Iso-Seq tem uma sensibilidade superior na revelação da função dos genes e do mecanismo de regulação.
Resumo dos dados Iso-Seq (Liu et al., 2022)
O estudo sobre a tecnologia Iso-Seq de lncRNA também fez um avanço na descoberta e anotação funcional de RNA longos não codificantes. Por exemplo, na pesquisa sobre soja, um grande número de novos lncRNA foi detetado pela tecnologia Iso-Seq, e as suas funções foram reveladas através de análise bioinformática.
Características do lncRNA nos tecidos da raiz e nódulo da soja (Liu et al., 2022)
Aplicação na pesquisa do câncer: Na pesquisa do câncer, a tecnologia Iso-Seq é utilizada para analisar o transcriptoma completo de amostras tumorais. Por exemplo, a pesquisa sobre a linha celular COLO 205 mostra que o Iso-Seq pode melhorar significativamente a capacidade de deteção de mutações, deleções pontuais e variações estruturais quando combinado com dados de leitura curta e longa. Esta tecnologia oferece uma nova perspetiva para a pesquisa em genómica do câncer.
Paisagem de eventos de mudança de isoforma no câncer primário de fígado (Chen et al., 2024)
Comparação entre espécies: No estudo do gorila egípcio (Macaca monophora), os investigadores conseguiram construir uma montagem do genoma a nível de cromossoma, combinando a tecnologia Illumina e a tecnologia PacBio Hi-C, e analisaram de forma abrangente o transcriptoma completo através da tecnologia Iso-Seq. Os resultados mostraram que, com o aumento dos dados de sequenciação, o número de isómeros de transcritos aumentou gradualmente, melhorando assim a qualidade da anotação genética.
Perfis de splicing diferentes em modelos de rato com comprimento de repetição curto ou patogénico (Hannah et al., 2024)
Problemas comuns e habilidades de resolução
Anotação e classificação de isómeros: Pode haver redundância ou má classificação no processo de anotação de isómeros. Utilize ferramentas como TAPSPI e SQANTI3 para anotar e classificar isómeros de forma eficiente. Estas ferramentas podem melhorar a precisão das anotações e reduzir erros.
Complexidade do processo de análise de dados: O processo de análise de dados é complicado e requer múltiplos passos para processar os dados originais. Utilize ferramentas automatizadas como nf Iso-seq ou TAGET, que podem simplificar o processo de análise de dados, reduzir erros humanos e melhorar a eficiência.
Alta procura por recursos computacionais: A análise de dados Iso-Seq requer muitos recursos computacionais. Adote uma estrutura de computação distribuída ou serviços em nuvem (como AWS ou Google Cloud) para reduzir a procura por recursos computacionais locais.
Deteção de eventos de AS: A deteção de AS alternativo pode ser limitada por leituras curtas e dados longos. Combine dados de leituras curtas e longas com dados de Iso-Seq para uma análise conjunta que melhore a precisão da deteção de eventos de AS.
Falsos positivos na análise de dados: Resultados falsos positivos podem ocorrer durante a análise de dados. Utilize padrões rigorosos de controlo de qualidade e múltiplos métodos de verificação (como RT-QCPR) para garantir a fiabilidade dos resultados.
Iso-Seq é um método de sequenciação do transcriptoma de comprimento completo baseado na tecnologia de sequenciação SMRT. Os seus passos principais incluem a geração de segmentos de leitura originais, correção de erros e emenda, refinamento e anotação de transcritos, previsão de isómeros e cálculo de expressão, bem como visualização e análise de dados.
Na investigação Iso-Seq, a interpretação precisa dos dados é muito importante pelas seguintes razões:
Apoiar a análise complexa do transcriptoma: Os dados de Iso-Seq podem ser utilizados para analisar profundamente a rede regulatória pós-transcricional dos genes, como a seletividade de splicing, eventos de fusão de genes e os seus efeitos na função proteica. A interpretação precisa dos dados é útil para revelar esses complexos mecanismos biológicos.
Promover a investigação de comparação entre espécies: O Iso-Seq fornece uma ferramenta importante para a comparação entre espécies ao construir uma base de dados de transcritos completos de plantas ou integrar outros dados ómicos. Por exemplo, utilizando dados de Iso-Seq, podemos analisar as diferenças na expressão génica entre diferentes espécies e as suas relações evolutivas.
Promover a investigação clínica e o diagnóstico de doenças: A tecnologia Iso-Seq tem um importante valor de aplicação na deteção de variações genéticas relacionadas com doenças e na análise das diferenças de expressão génica. A interpretação precisa dos dados pode ajudar a identificar potenciais marcadores de doenças ou alvos terapêuticos.
Portanto, a investigação Iso-Seq necessita não apenas de tecnologia de geração e processamento de dados de alta qualidade, mas também de ferramentas e algoritmos de bioinformática avançados para garantir a precisão da interpretação dos dados, promovendo assim o desenvolvimento da investigação biológica e da aplicação clínica.
Referências: