Introdução
A metilação do DNA é um componente importante da epigenética e desempenha um papel fundamental na manutenção da função celular normal, na impressão genética, no desenvolvimento embrionário e na tumorigenese humana. Sequenciação de bisulfito de genoma completo (WGBS) converte a citosina não metilada (C) em timina (T) com o tratamento com bisulfito no DNA genómico. Subsequentemente, foi realizada a re-sequenciação do genoma completo do DNA tratado e a comparação com o genoma de referência para alcançar uma resolução de base única e uma análise de nível de metilação de alta precisão a partir do nível genómico. O WGBS é amplamente utilizado em estudos de diferenciação celular, desenvolvimento de tecidos, bem como na reprodução de animais e plantas, saúde humana e doenças.
Pipeline de análise de dados de WGBS
Figura 1. Fluxo de trabalho e análise bioinformática básica de WGBS.
O controlo de qualidade das leituras brutas é um passo essencial para garantir que os dados são de alta qualidade e adequados para análises posteriores. Os dados brutos podem estar contaminados por primers e dímeros de PCR durante a construção da biblioteca ou adulterados com bases de baixa qualidade durante a sequenciação. Assim, a remoção de adaptadores e o corte/filtragem das leituras são necessários para a eliminação de bases de baixa qualidade da análise subsequente.
Muitos programas, como o FastQC, BIGpre e PIQA, podem fornecer análises variadas para controlo de qualidade. Entre eles, o FastQC é a ferramenta mais reconhecida para controlo de qualidade. Ele lida com muitos aspetos das leituras brutas e gera um relatório em html que resume cada verificação de qualidade realizada. Geralmente, os resultados cobrem diferentes aspetos de qualidade das leituras brutas, como o número total de leituras, a distribuição da qualidade das leituras, a distribuição do conteúdo de GC, a qualidade geral da sequência e muito mais.
Em seguida, as leituras devem ser alinhadas ao genoma de referência. As ferramentas de alinhamento convencionais, como BWA, Bowtie ou Maq, são inadequadas devido à dessemelhança entre os genomas de referência padrão e as leituras de DNA tratado com bisulfito. Existem muitas ferramentas disponíveis, como Bismark, BS-Seeker2, Bison, Last ou B-SOLANA. As ferramentas de alinhamento representadas pelo Bismark utilizam alinhadores de leituras curtas existentes e lidam internamente com os requisitos únicos da análise de dados WGBS, convertendo C em T tanto nas leituras sequenciadas quanto no genoma de referência antes do mapeamento. Outros métodos, como o Last, utilizam uma matriz de pontuação específica que pode tolerar discrepâncias C-T.
Os duplicados de PCR podem ser identificados computacionalmente após o alinhamento ao genoma de referência, uma vez que inflacionam erroneamente as coberturas do genoma e podem resultar em erros falsos positivos em análises posteriores. Em geral, a forma como resolvemos o viés de PCR é remover leituras que estão alinhadas à mesma posição na mesma fita do genoma de referência. A chamada de metilação pode ser realizada utilizando ferramentas de alinhamento como o Bismark, que fornece arquivos BAM, bem como métricas e arquivos adicionais relacionados à chamada de metilação.
A transformação incompleta e a degradação do ADN podem ocorrer no tratamento com bisulfito, ou seja, os Cs não metilados não são totalmente convertidos em Ts. Portanto, o controlo de qualidade ainda precisa ser realizado após o alinhamento e a chamada de metilação para remover erros falsos positivos. Existem duas maneiras de calibrar a taxa de conversão; uma é usar a percentagem de metilação não CpG, a outra é usar Cs não metilados para adicionar sequências de spike-in e calcular a contagem de Ts.
Tabela 1. Software de chamada DMR (Condon) e outros. 2018).
| Programa | Identificação DMR | Execução |
| Desafiador | Expansão de Welch Ponderada | Binário |
| BSmooth | Suavização de verossimilhança local com teste binomial | R |
| methylKit | Teste exato de Fisher ou regressão logística com tiling | R |
| MethylSig | beta-binomial | R |
| Metileno | p-valor pela binomial beta | Binário |
| MOABS | beta-binomial | Binário |
| RADMeth | regressão beta-binomial | Binário |
A análise e visualização bioinformática de WGBS incluem análise de dados básicos, como análise de nível e densidade de metilação, análise de motivos e análise de dados avançada, como análise de rede de co-expressão.
A análise de metilação diferencial visa encontrar regiões de metilação diferencial (DMR) entre grupos específicos. DMS (sitios CpG metilados diferencialmente) referem-se a locais de citosina com níveis de modificação de metilação significativamente diferentes entre diferentes amostras. Reflete a diferença na modificação de metilação entre amostras com resolução de base única e é uma unidade básica para estudar a expressão de genes regulados por metilação.
A análise da dinâmica de metilação também é importante dentro da amostra. Por exemplo, depressões nos perfis de metilação geralmente indicam regiões regulatórias, e muitas regiões do corpo do gene são extensivamente metiladas e pobres em CpG. Estas observações podem descrever as estruturas e a função dos genes. Os estados de metilação (incluindo regiões de baixa metilação, regiões totalmente metiladas e regiões não metiladas) podem ser identificados pela segmentação do metiloma utilizando abordagens computacionais, como MethylSeekR e MethPipe.
O DMR/DMS e os segmentos muitas vezes precisam ser interpretados em termos biológicos com a base de dados de anotação do genoma. Existem várias ferramentas que podem produzir tais anotações. Por exemplo, o pacote Bioconductor genomation pode ser utilizado para anotar DMR/DMS e integrar proporções de metilação. O CHIPpeakAnno, outro pacote semelhante, é projetado não apenas para anotação de picos de ChIP-seq, mas também para anotação de DMR/DMC até certo ponto.
A agrupamento refere-se à organização de objetos em grupos com base na semelhança. A análise de agrupamento é importante na identificação de subtipos moleculares de doenças. A análise PCA, também conhecida como análise de componentes principais, é um método comum para detectar padrões em dados de metilação entre diferentes tratamentos ou diferentes estágios de desenvolvimento, explicando assim a variação dos padrões de metilação em diferentes tratamentos. A análise PCA também detecta efeitos de lote. Outro método comum para a análise de agrupamento é o agrupamento hierárquico. Ferramentas como HumMeth27QCReport e methylkit oferecem opções de PCA e agrupamento hierárquico utilizando dados normalizados. M-valores.
De acordo com os dados de metilação de cada amostra, foi realizada uma análise de agrupamento e uma análise de enriquecimento para analisar a similaridade entre as amostras. Normalmente, inclui a análise de enriquecimento GO e a análise de vias KEGG, ambas utilizando o servidor web DAVID.
análise GOA Ontologia Genética (GO) é um sistema de classificação padrão internacional para a função dos genes. Realizar uma análise de enriquecimento GO em genes relacionados pode explorar as funções biológicas, a composição celular e os processos biológicos dos genes regulados por DMR.
Análise de vias KEGG. A análise de enriquecimento significativo de vias KEGG pode determinar as vias metabólicas bioquímicas e as vias de transdução de sinal mais importantes envolvidas nos genes regulados por DMR.
Na CD Genomics, estamos dedicados a fornecer soluções fiáveis. sequenciação epigenómica serviços, incluindo sequenciação de bisulfito direcionada, sequenciação de bisulfito com representação reduzida (RRBS), sequenciação de bisulfito de genoma completo, Sequenciação MeDIPe ChIP-seqSe estiver interessado nos nossos serviços, não hesite em contactar-nos.
Referências: