Análise Bioinformática de Sequenciação de Pequenos RNAs
As RNAs são moléculas funcionais importantes nos organismos, que têm três categorias principais: microRNA (miRNA), small interfering RNA (siRNA) e piwi-interacting RNA (piRNA). Elas têm menos de 200 nt de comprimento e muitas vezes não são traduzidas em proteínas. As pequenas RNAs geralmente realizam a interferência de RNA (RNAi) formando o núcleo do complexo RNA-proteína (complexo de silenciamento induzido por RNA, RISC). Sequenciação de RNA pequenoum exemplo de sequenciação direcionadaé um método poderoso para a profilagem de espécies de RNA pequeno e análise genómica funcional. Aqui, apresentamos as diretrizes para a análise bioinformática de sequenciação de RNA pequeno.

Figura 1. Fluxo de trabalho da análise bioinformática de sequenciação de pequenos RNAs.
Tabela 1. Passos e ferramentas cruciais para a análise de dados de sequenciação de pequenos RNAs (Buschmann) et al.. 2016).
| Passo | Considerar | Ferramentas ou algoritmos recomendados |
| Pré-processamento de dados | Remoção de adaptadores Remoção de leituras curtas | Btrim, FASTX-Toolkit |
| Controlo de qualidade | Tamanho da biblioteca e distribuição de leituras entre amostras Pontuação Phred por base / sequência Distribuição do comprimento das leituras Avaliar degradação Verificar sequências sobre-representadas | Btrim, FASTX-Toolkit, FaQCs |
| Alinhamento de leitura | Base de dados de referência ou genoma Anotação Taxa de incompatibilidade Tratamento de multi-reads | Bowtie, BWA, HTSEQ, SAMtools, SOAP2 |
| Normalização | Tamanhos de bibliotecas e profundidade de sequenciação Efeitos de lote Distribuição de leituras Nível de replicação Distribuição de dados Nível de replicação | DESeq2, EdgeR, svaseq |
| análise de DEG | Distribuição de dados Nível de replicação Taxa de descoberta falsa | DESsq2, EdgeR, SAMSeq, voom limma |
| Previsão de alvo | In silico previsão ou validação experimental regulação de alvos canónicos e não canónicos | miRanda, miRTarBase, TarBase |
| Identificação de biomarcadores | Sensibilidade Especificidade Taxa de classificação | DESeq2, Simca-Q, Vários pacotes R: base, pcaMethods, Mixomics |
* DGE, expressão gênica diferencial.
Pré-processamento de dados brutos e controlo de qualidade
Para facilitar alinhamentos corretos, os dados brutos devem ser cortados para acomodar artefatos de adaptadores e sequências com comprimentos inadequados. Leituras com menos de 16-18 nt que representam RNA degradado ou dímeros de adaptadores precisam ser removidas. Ferramentas como Btrim, FASTX-Toolkit, FaQCs e cutadapt são usadas para este propósito. No entanto, isso não é suficiente para conjuntos de dados de alta qualidade e alinhamentos precisos. Existem algoritmos como Quake e ALLPATHSLG, que se dedicam a corrigir chamadas de bases não confiáveis, sobrepondo os padrões mais frequentes e semelhantes a elas. Leituras de baixa qualidade também precisam ser removidas parcial ou completamente com base nos seus escores Phred. Algoritmos populares de corte de qualidade incluem Cutadapt, Btrim, FASTX Toolkit, FaQCs e SolexaQA.
Após o pré-processamento de dados e controlo de qualidade, as leituras restantes devem ser livres de sequências de baixa qualidade (pontuação de qualidade < 20) e artefatos de adaptadores, e os comprimentos das leituras devem apresentar um pico distinto com base nas espécies de RNA pequeno de interesse (por exemplo, 21-23 nt para miRNA e 30-32 nt para piRNA).
Alinhamento de leituras de RNA pequeno
As estratégias de alinhamento de leituras envolvem o mapeamento para um genoma de referência ou bases de dados específicas de pequenos RNAs, como o mirBase e o Rfam. Além da comparação com sequências específicas, conjuntos de dados homólogos de organismos bem estudados também são úteis devido à forte conservação das sequências de semente entre a maioria das espécies de pequenos RNAs em diferentes espécies.
Tabela 2. As ferramentas comuns para sequenciação de pequenos RNAs.
| Ferramentas de alinhamento de leituras de RNA pequeno | Avaliações ou recomendações | |
| algoritmo | Alinhador BLAST, sufixo / prefixo | O sufixo / prefixo baseado na Transformação de Burrows-Wheeler é rápido e eficiente na mapeação. |
| software | Bowtie, BWE, SOAP2 | É fortemente recomendada uma avaliação da sensibilidade e especificidade do mapeamento. Pesquisas com grandes conjuntos de dados ou tempo limitado podem experimentar o BarraCUDA, SOAP3-dp ou MICA. |
Normalização
As variações sistemáticas precisam ser abordadas antes da análise de expressão diferencial. Este processo é chamado de normalização, que lida com diferenças indesejadas entre bibliotecas em profundidade de sequenciamento, conteúdo de GC e efeitos de lote. A normalização mediana das razões de expressão a partir de médias geométricas tem mostrado funcionar favoravelmente com diversos tipos de conjuntos de dados. Zyprich-Walczak et al.. (2015) propôs um fluxo de trabalho para determinar o método de normalização mais adequado para um conjunto de dados específico.
Análise de expressão diferencial
A análise de expressão gênica diferencial (DGE) é vital na análise de dados de pequenos RNAs, contribuindo para a previsão de alvos e identificação de biomarcadores. Existem várias boas ferramentas para este propósito (Tabela 3), mas a ferramenta ideal depende fortemente do conjunto de dados específico.
Tabela 3. Ferramentas para análise de expressão diferencial de pequenos RNAs.
| Ferramentas | Princípios | Condições aplicáveis |
| edgeR | Uma abordagem de verossimilhança ponderada em direção à dispersão comum | Apropriado para conjuntos de dados menores; Supera os seus concorrentes para um baixo número de réplicas. |
| DESeq | Modela a relação média-variância observada para todos os genes através de regressão. | Apropriado para conjuntos de dados menores; Supera os seus concorrentes em experiências com mais de 12 réplicas. |
| SAMSeq | Baseado em estatísticas de postos de Wilcoxon e estratégias de reamostragem. | Apropriado para conjuntos de dados com tamanhos de amostra suficientes de 10 ou mais; baixa potência e especificidade para experiências com tamanhos de amostra reduzidos. |
| NOISeq | Compara as diferenças de expressão absolutas e relativas entre e dentro das condições experimentais. | Baixa potência e especificidade para experiências com tamanhos de amostra reduzidos. |
| Voom + limma | Voom incorpora a tendência de média-variância em um peso de precisão para cada observação normalizada individual. Limma inclui modelagem linear, pesos quantitativos e métodos estatísticos de Bayes empíricos. | Funciona bem com diferentes conjuntos de dados. |
Identificação de biomarcadores e previsão de alvos
Os candidatos a biomarcadores podem ser identificados através da análise de expressão diferencial. As ferramentas mostradas na Tabela 1 também podem ser utilizadas para a identificação de biomarcadores. Os biomarcadores de RNA pequeno detectados baseiam-se principalmente em miARNs. Existem várias ferramentas e pacotes de software para o in silico análise funcional de miRNA. O pacote TargetScan, TargetFinder e miRanda podem ser utilizados para in silico previsão de alvos. Os genes-alvo previstos são analisados adicionalmente através da análise de Ontologia Genética (GO) e da via KEGG.
Validação
Para confirmar os resultados da sequenciação de pequenos RNAs, é necessário examinar os pequenos RNAs diferencialmente expressos por qRT-PCR. Se se revelar consistente com os resultados da sequenciação de pequenos RNAs, os dados da sequenciação de pequenos RNAs são confidenciais e fiáveis. Assim, a assinatura de biomarcadores descoberta pode ser assumida após a validação dos dados.
Leituras Adicionais:
O desafio e o fluxo de trabalho do sequenciamento de pequenos RNAs
Referências:
- Buschmann D., Haberberger A, Kirchner B, et al.. Rumo a assinaturas de biomarcadores fiáveis na era das biópsias líquidas - como padronizar o fluxo de trabalho de RNA-Seq pequeno[J]. Pesquisa em ácidos nucleicos, 2016, 44(13): 5995-6018.
- Miao X, Luo Q, Zhao H, et al.Análise genómica de miARNs nos ovários de cabras Jining Grey e Laiwu Black para explorar a regulação da fecundidade. Relatórios científicos, 2016, 6: 37983.
- Zyprych-Walczak J., et al.O impacto dos métodos de normalização na análise de dados de RNA-Seq. Pesq. Biomed. Int.., 2015, doi:10.1155/2015/621690.