Análise Bioinformática de Sequenciação de Pequenos RNAs

As RNAs são moléculas funcionais importantes nos organismos, que têm três categorias principais: microRNA (miRNA), small interfering RNA (siRNA) e piwi-interacting RNA (piRNA). Elas têm menos de 200 nt de comprimento e muitas vezes não são traduzidas em proteínas. As pequenas RNAs geralmente realizam a interferência de RNA (RNAi) formando o núcleo do complexo RNA-proteína (complexo de silenciamento induzido por RNA, RISC). Sequenciação de RNA pequenoum exemplo de sequenciação direcionadaé um método poderoso para a profilagem de espécies de RNA pequeno e análise genómica funcional. Aqui, apresentamos as diretrizes para a análise bioinformática de sequenciação de RNA pequeno.

Bioinformatics Analysis of Small RNA Sequencing

Figura 1. Fluxo de trabalho da análise bioinformática de sequenciação de pequenos RNAs.

Tabela 1. Passos e ferramentas cruciais para a análise de dados de sequenciação de pequenos RNAs (Buschmann) et al.. 2016).

Passo	Considerar	Ferramentas ou algoritmos recomendados
Pré-processamento de dados	Remoção de adaptadores Remoção de leituras curtas	Btrim, FASTX-Toolkit
Controlo de qualidade	Tamanho da biblioteca e distribuição de leituras entre amostras Pontuação Phred por base / sequência Distribuição do comprimento das leituras Avaliar degradação Verificar sequências sobre-representadas	Btrim, FASTX-Toolkit, FaQCs
Alinhamento de leitura	Base de dados de referência ou genoma Anotação Taxa de incompatibilidade Tratamento de multi-reads	Bowtie, BWA, HTSEQ, SAMtools, SOAP2
Normalização	Tamanhos de bibliotecas e profundidade de sequenciação Efeitos de lote Distribuição de leituras Nível de replicação Distribuição de dados Nível de replicação	DESeq2, EdgeR, svaseq
análise de DEG	Distribuição de dados Nível de replicação Taxa de descoberta falsa	DESsq2, EdgeR, SAMSeq, voom limma
Previsão de alvo	In silico previsão ou validação experimental regulação de alvos canónicos e não canónicos	miRanda, miRTarBase, TarBase
Identificação de biomarcadores	Sensibilidade Especificidade Taxa de classificação	DESeq2, Simca-Q, Vários pacotes R: base, pcaMethods, Mixomics

* DGE, expressão gênica diferencial.

Pré-processamento de dados brutos e controlo de qualidade

Para facilitar alinhamentos corretos, os dados brutos devem ser cortados para acomodar artefatos de adaptadores e sequências com comprimentos inadequados. Leituras com menos de 16-18 nt que representam RNA degradado ou dímeros de adaptadores precisam ser removidas. Ferramentas como Btrim, FASTX-Toolkit, FaQCs e cutadapt são usadas para este propósito. No entanto, isso não é suficiente para conjuntos de dados de alta qualidade e alinhamentos precisos. Existem algoritmos como Quake e ALLPATHSLG, que se dedicam a corrigir chamadas de bases não confiáveis, sobrepondo os padrões mais frequentes e semelhantes a elas. Leituras de baixa qualidade também precisam ser removidas parcial ou completamente com base nos seus escores Phred. Algoritmos populares de corte de qualidade incluem Cutadapt, Btrim, FASTX Toolkit, FaQCs e SolexaQA.

Após o pré-processamento de dados e controlo de qualidade, as leituras restantes devem ser livres de sequências de baixa qualidade (pontuação de qualidade < 20) e artefatos de adaptadores, e os comprimentos das leituras devem apresentar um pico distinto com base nas espécies de RNA pequeno de interesse (por exemplo, 21-23 nt para miRNA e 30-32 nt para piRNA).

Alinhamento de leituras de RNA pequeno

As estratégias de alinhamento de leituras envolvem o mapeamento para um genoma de referência ou bases de dados específicas de pequenos RNAs, como o mirBase e o Rfam. Além da comparação com sequências específicas, conjuntos de dados homólogos de organismos bem estudados também são úteis devido à forte conservação das sequências de semente entre a maioria das espécies de pequenos RNAs em diferentes espécies.

Tabela 2. As ferramentas comuns para sequenciação de pequenos RNAs.

	Ferramentas de alinhamento de leituras de RNA pequeno	Avaliações ou recomendações
algoritmo	Alinhador BLAST, sufixo / prefixo	O sufixo / prefixo baseado na Transformação de Burrows-Wheeler é rápido e eficiente na mapeação.
software	Bowtie, BWE, SOAP2	É fortemente recomendada uma avaliação da sensibilidade e especificidade do mapeamento. Pesquisas com grandes conjuntos de dados ou tempo limitado podem experimentar o BarraCUDA, SOAP3-dp ou MICA.

Normalização

As variações sistemáticas precisam ser abordadas antes da análise de expressão diferencial. Este processo é chamado de normalização, que lida com diferenças indesejadas entre bibliotecas em profundidade de sequenciamento, conteúdo de GC e efeitos de lote. A normalização mediana das razões de expressão a partir de médias geométricas tem mostrado funcionar favoravelmente com diversos tipos de conjuntos de dados. Zyprich-Walczak et al.. (2015) propôs um fluxo de trabalho para determinar o método de normalização mais adequado para um conjunto de dados específico.

Análise de expressão diferencial

A análise de expressão gênica diferencial (DGE) é vital na análise de dados de pequenos RNAs, contribuindo para a previsão de alvos e identificação de biomarcadores. Existem várias boas ferramentas para este propósito (Tabela 3), mas a ferramenta ideal depende fortemente do conjunto de dados específico.

Tabela 3. Ferramentas para análise de expressão diferencial de pequenos RNAs.

Ferramentas	Princípios	Condições aplicáveis
edgeR	Uma abordagem de verossimilhança ponderada em direção à dispersão comum	Apropriado para conjuntos de dados menores; Supera os seus concorrentes para um baixo número de réplicas.
DESeq	Modela a relação média-variância observada para todos os genes através de regressão.	Apropriado para conjuntos de dados menores; Supera os seus concorrentes em experiências com mais de 12 réplicas.
SAMSeq	Baseado em estatísticas de postos de Wilcoxon e estratégias de reamostragem.	Apropriado para conjuntos de dados com tamanhos de amostra suficientes de 10 ou mais; baixa potência e especificidade para experiências com tamanhos de amostra reduzidos.
NOISeq	Compara as diferenças de expressão absolutas e relativas entre e dentro das condições experimentais.	Baixa potência e especificidade para experiências com tamanhos de amostra reduzidos.
Voom + limma	Voom incorpora a tendência de média-variância em um peso de precisão para cada observação normalizada individual. Limma inclui modelagem linear, pesos quantitativos e métodos estatísticos de Bayes empíricos.	Funciona bem com diferentes conjuntos de dados.

Identificação de biomarcadores e previsão de alvos

Os candidatos a biomarcadores podem ser identificados através da análise de expressão diferencial. As ferramentas mostradas na Tabela 1 também podem ser utilizadas para a identificação de biomarcadores. Os biomarcadores de RNA pequeno detectados baseiam-se principalmente em miARNs. Existem várias ferramentas e pacotes de software para o in silico análise funcional de miRNA. O pacote TargetScan, TargetFinder e miRanda podem ser utilizados para in silico previsão de alvos. Os genes-alvo previstos são analisados adicionalmente através da análise de Ontologia Genética (GO) e da via KEGG.

Validação

Para confirmar os resultados da sequenciação de pequenos RNAs, é necessário examinar os pequenos RNAs diferencialmente expressos por qRT-PCR. Se se revelar consistente com os resultados da sequenciação de pequenos RNAs, os dados da sequenciação de pequenos RNAs são confidenciais e fiáveis. Assim, a assinatura de biomarcadores descoberta pode ser assumida após a validação dos dados.

Leituras Adicionais:

O desafio e o fluxo de trabalho do sequenciamento de pequenos RNAs

Referências:

Buschmann D., Haberberger A, Kirchner B, et al.. Rumo a assinaturas de biomarcadores fiáveis na era das biópsias líquidas - como padronizar o fluxo de trabalho de RNA-Seq pequeno[J]. Pesquisa em ácidos nucleicos, 2016, 44(13): 5995-6018.
Miao X, Luo Q, Zhao H, et al.Análise genómica de miARNs nos ovários de cabras Jining Grey e Laiwu Black para explorar a regulação da fecundidade. Relatórios científicos, 2016, 6: 37983.
Zyprych-Walczak J., et al.O impacto dos métodos de normalização na análise de dados de RNA-Seq. Pesq. Biomed. Int.., 2015, doi:10.1155/2015/621690.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados