Cada plataforma de sequenciação possui atributos únicos que a distinguem das outras. Em casos afortunados, os investigadores podem ter acesso a várias plataformas, permitindo-lhes tirar partido das forças de cada uma. De facto, alguns estudos capitalizam o desempenho ótimo de diferentes plataformas, selecionando-as com base em requisitos específicos. Por exemplo, as leituras da Illumina destacam-se pela cobertura, a SOLID prioriza a precisão, enquanto a Roche 454 ou a Pacific Biosciences são conhecidas pelos seus comprimentos de leitura prolongados.
Escolher a plataforma mais adequada implica considerar numerosos fatores, abrangendo várias dimensões. No entanto, com as informações aqui fornecidas, os investigadores podem navegar por estas complexidades e tomar decisões informadas sobre a seleção da plataforma para experimentos de RNA-seq e as suas respetivas modalidades.
Como Planear o Seu Próximo Experimento de Sequenciação de RNA é um artigo útil para aprender sobre os diferentes tipos de tecnologias de sequenciação de RNA.
Ao procurar identificar SNPs ou eventos de edição de nucleotídeos únicos em espécies de RNA, a seleção de uma plataforma com uma taxa de erro mínima torna-se primordial. É essencial diferenciar SNPs genuínos de erros de sequenciação. Dada uma frequência de SNPs humanos de aproximadamente 1 em 800, alcançar uma taxa de precisão de 99,9% é imperativo. Apenas a plataforma SOLID afirma ter uma precisão que ultrapassa este limiar, enquanto algumas plataformas ficam significativamente aquém. No entanto, é importante notar que compensar uma precisão mais baixa é viável ao aumentar o número de leituras. Por exemplo, ao empregar 10 leituras com 99,9% de precisão para o mesmo RNA, obtém-se efetivamente uma taxa de precisão de 99,99%.
Por outro lado, quando o objetivo é identificar genes codificadores de proteínas conhecidos, melhorar as anotações dos modelos de estrutura gênica, quantificar transcritos e potencialmente descobrir novos genes, a exigência de precisão diminui. Programas que facilitam o mapeamento de leituras a modelos gênicos estabelecidos muitas vezes permitem uma ou até duas correspondências não emparelhadas. Por exemplo, com leituras que abrangem 50 nucleotídeos e permitindo uma incompatibilidade, a taxa de precisão é de 98%. Neste ponto, as plataformas mais amplamente utilizadas, como SOLID, Illumina, 454 e IonTorrent, são opções viáveis.
Os serviços de sequenciação de RNA de alto rendimento e construção de bibliotecas da CD Genomics permitem uma análise aprofundada dos transcriptomas.
É prática comum avaliar as estatísticas de cobertura em projetos de RNA-seq. Como regra geral, o genoma humano abrange cerca de 3000 milhões de nucleotídeos (Mnt), com aproximadamente 1/30 alocado a genes codificadores de proteínas. Isso implica que o RNA destinado ao sequenciamento equivale a cerca de 100 milhões de nucleotídeos. Se optarmos pelo sequenciamento de extremidade única com leituras de 100 nucleotídeos (nt) cada (ou sequenciamento de extremidade dupla com leituras de 50 nt), então a aquisição de 1 milhão de leituras resulta em 100 milhões de nt de dados de sequência, equivalente a 1x de cobertura. Uma saída típica para uma plataforma padrão é de 30 milhões de leituras, proporcionando 30x de cobertura. Com 30 milhões de leituras, podemos antecipar uma cobertura abrangente da maioria dos genes expressos, embora alguns menos abundantes possam ser perdidos.
Para estimar a probabilidade de uma leitura se mapear a um gene específico, podemos assumir um tamanho médio de gene de 4000 nt (derivado de 100M nt dividido por 25.000 genes). Com 30 milhões de leituras correspondendo a uma cobertura de 30x, e assumindo um comprimento de leitura de 100nt (ou 50nt para sequenciação de extremidades duplas), espera-se que uma única leitura se mapeie ao gene médio aproximadamente 1200 vezes. Consequentemente, se um gene é expresso a 1/1200 do nível de um gene médio, há uma chance de 50:50 de que uma leitura se mapeie a ele. Na prática, 30 milhões de leituras são suficientes para capturar a maioria, embora não todos, os genes expressos numa amostra. Uma vez que muitas plataformas podem gerar até 30 milhões de leituras, este não é tipicamente um fator limitante. Plataformas capazes de produzir contagens de leituras mais altas são preferidas para uma cobertura aprimorada, especialmente para analisar o uso alternativo de exões, eventos raros ou modelagem detalhada de genes.
Uma técnica mais recente conhecida como 'sequenciação por captura' envolve o enriquecimento de RNA em loci específicos do genoma humano. Este método tem sido bem-sucedido em capturar RNA de cerca de 50 loci, incluindo genes codificadores de proteínas e RNAs longos não codificadores. Ao empregar a sequenciação por captura, os investigadores alcançaram uma cobertura superior a 4600 vezes desses loci, permitindo a descoberta de exões não anotados, novos padrões de splicing e investigações aprofundadas de genes bem estudados. Isto sublinha o desafio de alcançar uma cobertura exaustiva para cada transcrito dentro de um locus gênico.
Alternativamente, determinar o número mínimo de leituras necessárias para confirmar a presença de transcritos continua a ser um tema de debate. A literatura apresenta exemplos contraditórios, com alguns estudos a sugerirem que uma única leitura é suficiente, enquanto outros argumentam que menos de 10 leituras são inadequadas. O limiar apropriado depende de vários fatores, incluindo o contexto do estudo, os padrões de revistas ou bases de dados e os objetivos de investigação em geral.
Para mapeamentos básicos a genes conhecidos dentro de um organismo, até mesmo sequências tão curtas quanto 14 nucleotídeos (nt) podem ser suficientes. No entanto, dado que algumas leituras podem mapear para múltiplos locais, leituras mais longas tornam-se essenciais. Com um comprimento de 50 nt, apenas uma pequena fração das leituras ainda mapeará para múltiplos locais, normalmente representando muito poucas ocorrências (<0,01%). Consequentemente, em termos práticos, comprimentos de leitura mais longos permitem estudos de expressão diferencial mais robustos e uma delimitação mais precisa dos padrões genéticos.
No entanto, numerosos cenários exigem leituras ainda mais longas, particularmente ao anotar novos genes em espécies que carecem de dados de sequência extensivos, como genomas, etiquetas de sequência expressa (ESTs) ou cDNA de cadeia longa. Sequências mais longas oferecem uma vantagem distinta em relação à tentativa de inferir padrões genéticos apenas a partir de leituras mapeadas e descontínuas de 50 nt. Plataformas como a Roche 454 demonstraram eficácia em tais aplicações, aproveitando a sua capacidade de produzir leituras mais longas. Além disso, os avanços em Tecnologia da Pacific Biosciences, particularmente a última geração de instrumentos e kits, permite a geração de leituras que se estendem até 10.000 nt ou mais, expandindo ainda mais o alcance da exploração genómica.
Os serviços de sequenciação de RNA de leitura longa e construção de bibliotecas da CD Genomics permitem uma análise aprofundada dos transcriptomas.
Num cenário ideal em que cada etapa da preparação da biblioteca, desde a fragmentação do RNA até a síntese de cDNA, gera fragmentos completamente imparciais que representam as amostras de RNA, o sequenciamento de extremidade única (SR) e o sequenciamento de extremidade pareada (PE) produziria resultados comparáveis. No entanto, o viés inevitavelmente se infiltra durante estas etapas de preparação. Para mitigar isso, sequenciar ambas as extremidades da biblioteca clonada melhora a randomização dos fragmentos, otimizando assim a qualidade dos dados de sequenciamento.
O sequenciamento em pares oferece uma vantagem dupla: não só aumenta a aleatoriedade dos fragmentos sequenciados, como também permite a sobreposição de sequências de fragmentos curtos, oferecendo uma confirmação adicional da sequência. A maioria dos programas modernos de análise de dados acomoda tanto dados de sequenciamento simples (SR) como de sequenciamento em pares (PE) de forma integrada, eliminando qualquer obstáculo na análise posterior.
Infelizmente, nem todas as plataformas de sequenciação suportam sequenciação em pares. Portanto, sempre que possível, optar pela sequenciação em pares é aconselhável para maximizar a qualidade dos dados e as análises.
Leitura recomendada: Sequenciação de leitura única vs. Sequenciação de extremidades pareadas.
Como discutido anteriormente, a maioria das plataformas de sequenciação foca em moléculas de RNA derivadas de cDNA de dupla cadeia transcrito reversamente e amostras de RNA amplificadas por PCR. No entanto, certos projetos de investigação priorizam o estudo de modificações estruturais do RNA, como a captação de mRNA. Nesses casos, a sequenciação do RNA diretamente torna-se preferível. Esta abordagem é exemplificada por avanços recentes como a sequenciação por Nanopore, que sequencia diretamente o RNA em vez do cDNA.
Com o advento do sequenciamento de RNA total de células individuais, surge a questão: existe um requisito mínimo para o material da amostra? As plataformas que utilizam cDNA de dupla cadeia amplificado efetivamente não têm um limite inferior, mas isso não implica que um material mínimo seja suficiente. Aumentar o material da amostra não só garante um fornecimento adequado para o sequenciamento, mas também melhora a diversidade das espécies de RNA detectadas.
A maioria das plataformas de sequenciação modernas oferece kits especializados adaptados para a preparação de bibliotecas a partir de nanogramas de RNA total, acomodando diferentes tamanhos de amostras. As plataformas de molécula única, em particular, requerem apenas uma molécula para sequenciação, eliminando quaisquer limitações práticas entre as diferentes plataformas de sequenciação.
Pode consultar o nosso DIRECTRIZES PARA A SUBMISSÃO DE AMOSTRAS para mais detalhes sobre amostras e preparação.
Embora o custo do sequenciamento tenha diminuído significativamente na última década, é importante reconhecer que o custo continua a ser um fator, especialmente considerando os requisitos crescentes e os padrões de qualidade para publicação. Embora o cenário ideal desconsiderasse o custo, considerações práticas exigem um orçamento.
Optar por utilizar instalações NGS centrais de negócios, nacionais ou locais para upload. RNA-seq as bibliotecas apresentam uma estratégia eficaz para a redução de custos sem comprometer a qualidade.
No dinâmico domínio da genómica, o progresso rápido é essencial. Idealmente, as amostras são preparadas rapidamente, as bibliotecas construídas meticulosamente e o sequenciamento executado sem quaisquer atrasos. No entanto, na realidade, muitas plataformas como Illumina, SOLID e 454 frequentemente têm filas não porque as máquinas estejam inativas, mas devido à insuficiência de bibliotecas para saturar o pool de fluxo para uma única corrida.
Assim, o estrangulamento no fluxo de trabalho surge tipicamente durante a construção da biblioteca, onde a acumulação de um número necessário de bibliotecas precede o início das corridas do instrumento. Consequentemente, a fila de trabalho não se origina da disponibilidade do instrumento, mas sim do trabalho preparatório da biblioteca.
Após a conclusão do sequenciamento, a jornada está longe de terminar. Análise de dados emerge como a próxima fase, e a sua duração pode variar de dias a meses, ou até anos, particularmente em projetos de grande escala. Consequentemente, apesar da brevidade das corridas dos instrumentos de sequenciação, a fase de análise de dados surge como um esforço potencialmente prolongado.