Sequenciação de isoformas (Iso-Seq) é uma tecnologia de sequenciação em tempo real de moléculas únicas desenvolvida pela PacBio, que é utilizada para a análise e caracterização funcional de transcritos de comprimento completo. Esta tecnologia pode fornecer dados de sequência de transcritos de comprimento completo de alta qualidade ao sequenciar diretamente moléculas de RNA sem a montagem do transcriptoma. Este método é especialmente adequado para anotação de genes, descoberta de isómeros, splicing alternativo, pesquisa de poliadenilação (APA) e deteção de fusões genéticas.
Iso-Seq é um sequenciação em tempo real de moléculas únicas tecnologia baseada na plataforma PacBio, que é utilizada para sequenciar e analisar transcritos de comprimento completo. Os seus passos principais incluem os seguintes elos-chave:
Transformação de RNA em cDNA: Primeiro, as amostras de RNA são transformadas em cDNA, que é a base do sequenciamento subsequente.
Construção de biblioteca de cDNA: Inserir fragmentos de cDNA em vetores de biblioteca adequados para sequenciação, como o formato de biblioteca SMRTbell.
Sequenciamento: O sistema Sequel é utilizado para sequenciamento a fim de gerar dados de leitura longa de alta qualidade.
Geração de sequência de consenso circular (CCS): Processamento dos dados de sequenciação originais através de um algoritmo avançado da PacBio para gerar uma sequência de consenso circular de alta qualidade.
Análise de dados: Utilizando ferramentas de software especializadas (como SMRT Link ou TAGET), analise os dados gerados, incluindo a identificação de isómeros de transcritos, variações de splicing, locais de poliadenilação, entre outros.
Protocolo esquemático de Iso-Seq (An et al., 2018)
Importância de um guia abrangente para experiências de Iso-Seq
Porque o experimento Iso-Seq envolve muitos passos, desde a preparação da amostra até análise de dadosCada passo necessita de uma operação e otimização precisas. Portanto, é muito importante fornecer um guia experimental abrangente para garantir o sucesso do experimento e a fiabilidade dos resultados. Por exemplo, o controlo de qualidade do RNA, a otimização da construção da biblioteca e o ajuste dos parâmetros de sequenciação precisam de ser considerados durante a preparação da amostra.
Em termos de análise de dados, a PacBio recomendou o uso do software SMRT Link para análise de poliploidia e isómeros, e uma caracterização funcional adicional combinando com ferramentas da comunidade como SQANTI, TAMA e LoReAn. Além disso, para diferentes tipos de amostras (como células únicas ou amostras de leitura longa), é necessário selecionar kits e procedimentos de análise apropriados.
Para melhorar a eficiência da análise de dados e reduzir erros, os investigadores precisam de um processo sistemático para lidar com dados de Iso-Seq. Isso inclui controlo de qualidade, splicing e anotação dos dados de sequenciação originais, análise de expressão diferencial e anotação funcional. Além disso, com o aprofundamento da pesquisa, como integrar os dados de Iso-Seq com outros dados ómicos (como RNA-Seq e dados de proteómica) para obter insights biológicos mais abrangentes é também uma direção importante da investigação atual.
Serviços que pode estar interessado em
Quer saber mais sobre os detalhes do Iso-seq? Confira estes artigos.:
O processo Iso-seq consiste principalmente em extrair RNA de alta qualidade de amostras, em seguida, realizar a transcrição reversa para sintetizar cDNA de comprimento completo, fragmentar o cDNA, conectar a adaptador de sequenciação para construir a biblioteca de sequenciação, carregar a biblioteca no sequenciador PacBio, obter sequências de leitura longas contendo informações completas sobre os transcritos utilizando a tecnologia de sequenciação em tempo real de molécula única, e finalmente usar software de análise especial para correção de sequências, agrupamento e anotação para identificar e distinguir com precisão diferentes isómeros de transcritos.
A. Preparação da amostra
a) Métodos e ferramentas: A extração de RNA geralmente adota o método de fenol-clorofórmio, o método de coluna de gel de sílica ou o método de beads magnéticos. O método de fenol-clorofórmio é simples, mas fácil de ser contaminado; o método de coluna de gel de sílica tem alta pureza, mas alto custo; e o método de beads magnéticos combina as vantagens de rapidez, automação e alta recuperação. Além disso, os métodos comumente utilizados incluem o uso de kits comerciais, como os kits RNeasy da Qiagen, que são baseados na tecnologia de membrana de sílica. Estes kits podem isolar eficientemente RNA total de vários tipos de amostras, incluindo tecidos, células e sangue. Para amostras de plantas, o método CTAB (brometo de cetiltrimetilamônio) é frequentemente empregado, sendo eficaz no tratamento dos altos níveis de polissacarídeos e polifenóis presentes nos tecidos vegetais. Ferramentas como centrífugas são essenciais para separar as fases durante a extração, e espectrofotômetros são utilizados para medir a concentração do RNA extraído.
O fluxo de trabalho da extração de RNA (Griffith et al., 2015)
b) Avaliação da qualidade: A qualidade do RNA pode ser avaliada medindo a razão A260/A280 (a faixa ideal é 2.0-0.2) e a razão A260/A230 (a faixa ideal é 2.0-0.2) com um espectrofotómetro. A qualidade do RNA extraído é vital para aplicações subsequentes. O Número de Integridade do RNA (RIN) é uma métrica amplamente utilizada para avaliar a qualidade do RNA. Varia de 1 a 10, sendo 10 a indicar a mais alta qualidade. Os valores de RIN são determinados utilizando sistemas de eletroforese capilar automatizados, como o Agilent 2100 Bioanalyzer. Uma amostra de RNA com um valor de RIN de 7 ou superior é geralmente considerada adequada para Iso-Seq. Amostras com valores de RIN mais baixos podem resultar em RNA degradado, levando a resultados de sequenciação incompletos ou imprecisos.
Controlo de qualidade e seleção de tamanho de RNA (Griffith et al., 2015)
a) Método de transcrição reversa: Utilizando o Smarter Total RNA-SeqKit (Clontech) ou o Kapa Hifi RNA-to-cDNA Synthesis Kit para sintetizar cDNA. Estes métodos transcrevem reversamente o RNA em cDNA através de primers aleatórios ou primers oligo (dT), e melhoram a eficiência de amplificação utilizando a enzima KAPA HiFi. A primagem com hexâmeros aleatórios é uma abordagem mais geral que pode ligar-se a qualquer região da molécula de RNA, tornando-a adequada para uma ampla gama de transcritos. A primagem específica de genes é utilizada quando apenas transcritos específicos são de interesse. As enzimas transcriptase reversa, como a Superscript III, são comumente utilizadas nessas reações.
Síntese esquemática de cDNA (Griffith et al., 2015)
b) Inspeção da qualidade do cDNA: Após a síntese do cDNA, é importante realizar verificações de qualidade. Isso pode ser feito correndo o cDNA em um gel de agarose para verificar a presença de uma mancha ou bandas específicas, indicando uma síntese bem-sucedida. Além disso, a PCR quantitativa (qPCR) pode ser utilizada para avaliar a quantidade e a integridade do cDNA. O cDNA deve ter uma concentração consistente e estar livre de inibidores que possam afetar as etapas de preparação da biblioteca e sequenciação subsequentes. Verifique a distribuição do tamanho dos fragmentos de cDNA para garantir que sejam adequados para a construção da biblioteca subsequente.
Distribuição de tamanhos diferente de cDNA antes e depois da seleção de tamanhos (Griffith et al., 2015)
B. Construção da biblioteca
a) Seleção de tamanho e amplificação: Para a construção da biblioteca PacBio, a seleção de tamanho é um passo importante. Isso pode ser alcançado utilizando técnicas como extração em gel ou o uso de esferas de seleção de tamanho. O objetivo é isolar fragmentos de cDNA dentro de uma faixa de tamanho específica, tipicamente em torno de 1-10 kb para análise de transcritos completos. Em seguida, a biblioteca foi amplificada por PCR KAPA HiFi para aumentar a concentração da biblioteca. Os primers utilizados nesta etapa de amplificação são projetados para adicionar as sequências de adaptadores necessárias para sequenciamento na plataforma PacBio.
b) Passo de controlo de qualidade: O controlo de qualidade da biblioteca construída é essencial. Isto inclui medir a concentração da biblioteca utilizando métodos como a fluorometria Qubit, que fornece uma medição mais precisa da concentração de DNA em comparação com a espectrofotometria. Além disso, a biblioteca é analisada utilizando eletroforese capilar ou outros métodos de alto rendimento para verificar a presença da distribuição de tamanhos correta dos fragmentos. Quaisquer bibliotecas que não atendam aos padrões de qualidade podem precisar ser reamplificadas ou reconstruídas.
Os métodos de construção de bibliotecas Iso-Seq mais comuns (Erwin et al., 2014)
a) Carregamento da célula SMRT: A célula SMRT é a plataforma para sequenciação no sistema PacBio. O carregamento da célula SMRT envolve a adição cuidadosa da biblioteca preparada à célula, garantindo que a concentração e o volume corretos sejam utilizados. A biblioteca é misturada com os reagentes de sequenciação, incluindo polimerase e nucleotídeos, antes de ser carregada na célula, e cada célula é carregada com cerca de 100-200 ng de biblioteca.
b) Parâmetros de sequenciação: Vários parâmetros de sequenciação precisam ser definidos, como a duração do filme, que determina quanto tempo durará a corrida de sequenciação. Durações de filme mais longas podem aumentar a cobertura e a probabilidade de obter transcritos completos, mas também aumentam o custo e o tempo do experimento. Outros parâmetros incluem o tempo de ligação da polimerase e as configurações de temperatura, que são otimizadas para garantir uma sequenciação precisa e eficiente. A plataforma PacBio Sequel II é recomendada para sequenciação, e o tempo de sequenciação é definido em 180 minutos, de modo a obter dados de leitura longa de alta qualidade.
C. Geração de dados e controlo de qualidade
a) Após a corrida de sequenciação, são gerados dados brutos na forma de ficheiros de sinal. Estes ficheiros precisam de ser processados para obter as leituras de sequência. As verificações iniciais dos dados brutos incluem a avaliação da qualidade do sinal, o número de leituras geradas e a distribuição dos comprimentos das leituras. Quaisquer sinais óbvios de má qualidade do sinal ou contagens de leituras baixas podem indicar problemas com a corrida de sequenciação ou a preparação da biblioteca.
a) A correção de erros é um passo necessário no processamento de dados Iso-Seq devido à taxa de erro relativamente alta da tecnologia de sequenciação PacBio. Ferramentas como Canu e Falcon são comumente utilizadas para a correção de erros. Estas ferramentas utilizam algoritmos para corrigir os erros de sequenciação, comparando múltiplas leituras da mesma região. Após a correção de erros, são realizados passos de pré-processamento, como o corte de adaptadores e a filtragem de leituras de baixa qualidade. Software como BBDuk pode ser utilizado para o corte de adaptadores, e ferramentas como FastQC podem ser usadas para avaliar a qualidade das leituras pré-processadas.
D. Análise de dados
a) Processo e ferramentas recomendados: A montagem de transcritos é o processo de juntar as leituras corrigidas para formar transcritos completos. Pipelines como o pipeline PacBio Iso-Seq são projetados especificamente para este propósito. Ferramentas como o StringTie e o Cufflinks também podem ser usadas para a montagem de transcritos. Após a montagem, a identificação de isoformas é realizada para identificar diferentes variantes de splicing do mesmo gene. Estas ferramentas utilizam algoritmos para comparar os transcritos montados e identificar regiões de splicing alternativo.
a) Recursos e bases de dados de bioinformática: A anotação funcional dos transcritos identificados envolve a atribuição de funções biológicas a eles. Isso pode ser feito utilizando recursos como a base de dados Gene Ontology (GO), que fornece informações sobre a função molecular, processo biológico e componente celular dos genes. A base de dados Kyoto Encyclopedia of Genes and Genomes (KEGG) também é útil para entender as vias metabólicas e os processos biológicos nos quais os genes estão envolvidos. Para a análise de splicing alternativo, bases de dados como a Human Splicing Database (HSD) podem ser utilizadas para comparar os eventos de splicing identificados com padrões de splicing conhecidos.
E. Interpretação e visualização de dados
a) Várias ferramentas estão disponíveis para visualizar os resultados do Iso-Seq. O Integrative Genomics Viewer (IGV) é uma ferramenta popular que pode exibir as leituras alinhadas, transcritos e modelos de genes. Permite que os investigadores visualizem os eventos de splicing alternativo, a cobertura das leituras e a distribuição de transcritos entre diferentes genes. Outra ferramenta, o Circos, pode ser utilizada para criar visualizações circulares dos dados, que são úteis para comparar múltiplas amostras ou para visualizar as relações entre diferentes genes.
Capturas de ecrã do IGV de leituras devido à primagem interna de oligo-dT (Prech et al., 2020)
a) Uma vez que a análise de dados esteja completa, é importante relatar e partilhar os dados de Iso-Seq. Isso pode ser feito publicando os resultados em revistas científicas, juntamente com os dados brutos depositados em bases de dados públicas, como o Arquivo de Leituras de Sequência (SRA) do Centro Nacional de Informação Biotecnológica (NCBI). Além disso, os investigadores podem partilhar os seus scripts de análise e dados processados em plataformas como o GitHub, o que permite a outros investigadores reproduzir a análise e construir sobre os resultados. Um relato claro e detalhado dos métodos, resultados e fontes de dados é essencial para a reprodutibilidade e transparência da pesquisa.
Os passos acima cobrem todo o processo experimental Iso-Seq, desde a preparação da amostra até a análise de dados. Cada etapa combina as tecnologias e ferramentas atuais mais utilizadas para garantir a eficiência e a precisão do experimento. Por exemplo, a extração de RNA utiliza kits comerciais para garantir a pureza e a integridade. A síntese de cDNA utiliza o eficiente kit SMARTer. A construção da biblioteca combina técnicas de seleção de tamanho e amplificação. Na parte de análise de dados, recomenda-se o uso de ferramentas como LoRC e GMAP para montar e anotar transcritos de alta qualidade. Estes passos fornecem uma base sólida para a análise aprofundada da expressão gênica e da complexidade do transcriptoma.
Embora a tecnologia Iso-Seq tenha vantagens óbvias, ainda existem muitos problemas. Durante a preparação da amostra, a qualidade da extração de RNA é instável, sendo facilmente afetada por fatores como poluição, degradação ou baixa pureza, reduzindo assim a qualidade dos dados de sequenciação. Na sequenciação, é comum que a profundidade de sequenciação seja insuficiente, e é difícil obter informações suficientes sobre o transcriptoma completo devido ao comprimento de leitura curto ou ao tamanho reduzido da amostra. Na análise de dados, é difícil detectar isómeros, o que é limitado pela incompletude da sequência de referência do genoma e pelo baixo nível de expressão dos isómeros.
Problemas comuns em experimentos de Iso-Seq
Melhores práticas para a execução bem-sucedida de experimentos Iso-Seq
Através da orientação de resolução de problemas e das melhores práticas acima mencionadas, a taxa de sucesso do experimento Iso-Seq pode ser efetivamente melhorada, e um suporte de dados de alta qualidade pode ser fornecido para pesquisas subsequentes.
O protocolo Iso-Seq inclui cinco etapas principais: a transformação de RNA em cDNA, a construção da biblioteca cDNA para SMRTbell, a sequenciação com o sistema Sequel, a geração de sequência cíclica consensual (CCS) e a identificação de isómeros através da análise Iso-Seq. Além disso, a tecnologia também suporta sequenciação multiplex e sequenciação de células únicas, o que lhe confere vantagens únicas no estudo de amostras complexas e tipos celulares raros.
A preparação da amostra é crucial, pois a sua qualidade impacta a precisão do sequenciamento subsequente. RNA de alta qualidade é essencial; degradação ou contaminação podem causar falhas no sequenciamento. Na preparação, é necessário adicionar múltiplas caudas A e utilizar um kit de depleção de rRNA seguindo procedimentos padrão.
O design experimental deve ser racional, considerando o tipo de amostra, a profundidade de sequenciação e a análise alvo. Para a investigação em plantas, escolha tecidos e pontos temporais com base na expressão génica. Inclua múltiplas estratégias para uma melhor cobertura de dados e precisão.
Os parâmetros de sequenciação, como a concentração a bordo e o tempo, precisam de otimização de acordo com as características da amostra e os requisitos de análise. Utilize instrumentos e reagentes de qualidade seguindo o guia do fabricante para melhorar a qualidade dos dados.
A análise de dados exige ferramentas especializadas como SMRT Link ou TAGET para lidar com dados complexos de isómeros. Corrija potenciais desvios e verifique os resultados com outras tecnologias como RNA-seq. Durante o experimento, monitore continuamente a qualidade da amostra e do sequenciamento. Verifique se os dados atendem às expectativas após o sequenciamento e ajuste o esquema prontamente. Assegure-se de que todos os dados estejam completos após o experimento.
Referências: