Fluxo de Trabalho e Ferramentas de Bioinformática para Perfilagem de Ribossomas
Visão Geral do Perfilamento de Ribossomas
Perfilagem de ribossomas (Ribo-seq) é uma técnica estabelecida para detectar regiões de transcritos traduzidos através de sequenciação de nova geração (NGS). O Ribo-seq preencheu a lacuna entre a sequenciação de RNA e a proteómica ao mapear a posição dos ribossomos em tradução sobre todo o transcriptoma. Desde a sua criação, os cientistas têm utilizado o Ribo-seq para responder a questões que vão desde a deteção de pequenos quadros de leitura abertos traduzidos (OFRs) até à quantificação do controlo translacional.
O protocolo Ribo-seq consiste em (i) tratamento com fármacos e colheita de células, (ii) mapeamento de nucleases e isolamento de fragmentos protegidos por ribossomas (RPFs), e (iii) preparação de bibliotecas e sequenciação profunda. Embora o protocolo experimental tenha sido revisto no artigo "Visão Geral do Perfilamento de Ribossomas: Definição, Aplicações, Princípios e Fluxo de Trabalho", aqui iremos focar na análise de dados de perfis de ribossomas."

Figura 1. O fluxo de trabalho experimental do perfilamento de ribossomas (Ribo-seq).
Análise de Dados em Ribo-Seq
As pegadas ribossomais são muito curtas (25-35 nt) e geralmente são sequenciadas por sequenciação de extremidade única. O fluxo de trabalho da análise de Ribo-seq consiste em controlo de qualidade, mapeamento de leituras, normalização e análise de dados subsequente, como a análise de expressão diferencial (Figura 2). Algumas ferramentas foram desenvolvidas para o processamento de dados de Ribo-seq. Por exemplo, o RiboGalaxy pode ser utilizado para verificar a qualidade dos dados de Ribo-seq, alinhar leituras e visualizar resultados. O RiboVIEW é uma estrutura computacional para visualização, controlo de qualidade e análise estatística da análise de Ribo-seq.

Figura 2. Fluxograma da análise de dados na profilagem de ribossomas (Bartholomäus, et al.. 2016).
- Controlo de qualidade
O primeiro passo da análise de dados em perfilagem de ribossomas passa por um corte de qualidade e de adaptadores. A maioria dos dados de Ribo-seq é processada com uma pontuação Phred na faixa de ~20-30 ou com uma precisão de base de 99,0-99,9%. As sequências de adaptadores devem ser removidas com ferramentas como o Cutadapt. Uma alta percentagem de leituras consistindo em pequenos RNAs estruturados (rRNAs, tRNAs ou snoRNAs) deve ser removida utilizando um alinhamento que considere splicing, como o STAR. Caso contrário, a sua abundância excessiva pode interromper a quantificação subsequente.
- Leitura de Mapeamento
A leitura do mapeamento é um procedimento crucial para encontrar a localização única de cada leitura no genoma de referência. Os dados pré-processados podem ser mapeados para genomas ou transcriptomas. O mapeamento para o genoma é preferido, pois não é tendencioso em relação a exões e íntrons conhecidos e permite a descoberta de ORFs novos. Além disso, os genomas são melhor definidos do que os transcriptomas e o mapeamento genómico é mais rápido e frequentemente proporciona uma maior cobertura. As ferramentas de mapeamento incluem algoritmos baseados em tabelas de hash ou na Transformação de Burrows-Wheeler (BWT). As ferramentas baseadas em BWT, como o Bowtie, são preferidas, pois são rápidas e menos exigentes em termos computacionais. Embora o Bowtie não consiga mapear junções de splicing, o TopHat é comumente utilizado para alinhar leituras curtas através de junções e descobrir junções. de novo.
Os RPFs são muito curtos e podem corresponder a múltiplas localizações. No entanto, não existe uma estratégia uniforme sobre como lidar com esta questão. Para evitar a sobreinterpretação dos dados, o mapeamento conservador com leituras mapeadas de forma única pode ser a melhor escolha em algumas análises, como a análise diferencial.
- Normalização
Após o mapeamento das leituras, as contagens de leituras são atribuídas a cada gene ou RNA não codificante. Genes sobrepostos são um problema aqui. O rpkM é uma abordagem comumente utilizada para a normalização das contagens de leituras. Ele considera as diferenças na profundidade de sequenciação entre bibliotecas e a variação de comprimento de cada gene.
- Análise a montante
Análise diferencialAs ferramentas utilizadas para identificar genes expressos diferencialmente (DEGs) nos conjuntos de dados de RNA-seq também são aplicadas em estudos de Ribo-seq, como DESeq, EdgeR e baySeq.
Encontrar ORFO Ribo-seq representa uma técnica poderosa para a deteção e anotação de regiões de sequência codificante (CDS), permitindo detectar a tradução de ORFs a montante, o uso de códon de início ou a tradução de RNAs presumivelmente não codificantes.
Referências:
- Calviello L, Ohler U. Para além das contagens de leitura: Análise de dados de Ribo-seq para compreender as funções do transcriptoma. Tendências em Genética, 2017, 33(10): 728-744.
- Bartholomäus A, Del Campo C, Ignatova Z. Mapeamento dos preconceitos não padronizados do perfilamento de ribossomas. Química biológica, 2016, 397(1): 23-35.
- Carja O, Xing T, Wallace E W J, et al. riboviz: análise e visualização de conjuntos de dados de perfilagem de ribossomas[J]. BMC bioinformatics, 2017, 18(1): 461.