Pipeline de Análise de Dados de Sequenciamento de Bisulfito de Genoma Inteiro (WGBS)

Introdução

A metilação do DNA é um componente importante da epigenética e desempenha um papel fundamental na manutenção da função celular normal, na impressão genética, no desenvolvimento embrionário e na tumorigenese humana. Sequenciação de bisulfito de genoma completo (WGBS) converte a citosina não metilada (C) em timina (T) com o tratamento com bisulfito no DNA genómico. Subsequentemente, foi realizada a re-sequenciação do genoma completo do DNA tratado e a comparação com o genoma de referência para alcançar uma resolução de base única e uma análise de nível de metilação de alta precisão a partir do nível genómico. O WGBS é amplamente utilizado em estudos de diferenciação celular, desenvolvimento de tecidos, bem como na reprodução de animais e plantas, saúde humana e doenças.

Pipeline de análise de dados de WGBS

Whole Genome Bisulfite Sequencing (WGBS) Data Analysis Pipeline Figura 1. Fluxo de trabalho e análise bioinformática básica de WGBS.

  • Controlo de qualidade

O controlo de qualidade das leituras brutas é um passo essencial para garantir que os dados são de alta qualidade e adequados para análises posteriores. Os dados brutos podem estar contaminados por primers e dímeros de PCR durante a construção da biblioteca ou adulterados com bases de baixa qualidade durante a sequenciação. Assim, a remoção de adaptadores e o corte/filtragem das leituras são necessários para a eliminação de bases de baixa qualidade da análise subsequente.

Muitos programas, como o FastQC, BIGpre e PIQA, podem fornecer análises variadas para controlo de qualidade. Entre eles, o FastQC é a ferramenta mais reconhecida para controlo de qualidade. Ele lida com muitos aspetos das leituras brutas e gera um relatório em html que resume cada verificação de qualidade realizada. Geralmente, os resultados cobrem diferentes aspetos de qualidade das leituras brutas, como o número total de leituras, a distribuição da qualidade das leituras, a distribuição do conteúdo de GC, a qualidade geral da sequência e muito mais.

  • Mapeamento de leituras ao genoma de referência

Em seguida, as leituras devem ser alinhadas ao genoma de referência. As ferramentas de alinhamento convencionais, como BWA, Bowtie ou Maq, são inadequadas devido à dessemelhança entre os genomas de referência padrão e as leituras de DNA tratado com bisulfito. Existem muitas ferramentas disponíveis, como Bismark, BS-Seeker2, Bison, Last ou B-SOLANA. As ferramentas de alinhamento representadas pelo Bismark utilizam alinhadores de leituras curtas existentes e lidam internamente com os requisitos únicos da análise de dados WGBS, convertendo C em T tanto nas leituras sequenciadas quanto no genoma de referência antes do mapeamento. Outros métodos, como o Last, utilizam uma matriz de pontuação específica que pode tolerar discrepâncias C-T.

  • Chamada de metilação 

Os duplicados de PCR podem ser identificados computacionalmente após o alinhamento ao genoma de referência, uma vez que inflacionam erroneamente as coberturas do genoma e podem resultar em erros falsos positivos em análises posteriores. Em geral, a forma como resolvemos o viés de PCR é remover leituras que estão alinhadas à mesma posição na mesma fita do genoma de referência. A chamada de metilação pode ser realizada utilizando ferramentas de alinhamento como o Bismark, que fornece arquivos BAM, bem como métricas e arquivos adicionais relacionados à chamada de metilação.

A transformação incompleta e a degradação do ADN podem ocorrer no tratamento com bisulfito, ou seja, os Cs não metilados não são totalmente convertidos em Ts. Portanto, o controlo de qualidade ainda precisa ser realizado após o alinhamento e a chamada de metilação para remover erros falsos positivos. Existem duas maneiras de calibrar a taxa de conversão; uma é usar a percentagem de metilação não CpG, a outra é usar Cs não metilados para adicionar sequências de spike-in e calcular a contagem de Ts.

Tabela 1. Software de chamada DMR (Condon) e outros. 2018).

Programa Identificação DMR Execução
Desafiador Expansão de Welch Ponderada Binário
BSmooth Suavização de verossimilhança local com teste binomial R
methylKit Teste exato de Fisher ou regressão logística com tiling R
MethylSig beta-binomial R
Metileno p-valor pela binomial beta Binário
MOABS beta-binomial Binário
RADMeth regressão beta-binomial Binário

A análise e visualização bioinformática de WGBS incluem análise de dados básicos, como análise de nível e densidade de metilação, análise de motivos e análise de dados avançada, como análise de rede de co-expressão.

  • Identificação de regiões diferencialmente metiladas

A análise de metilação diferencial visa encontrar regiões de metilação diferencial (DMR) entre grupos específicos. DMS (sitios CpG metilados diferencialmente) referem-se a locais de citosina com níveis de modificação de metilação significativamente diferentes entre diferentes amostras. Reflete a diferença na modificação de metilação entre amostras com resolução de base única e é uma unidade básica para estudar a expressão de genes regulados por metilação.

  • Segmentação do metiloma

A análise da dinâmica de metilação também é importante dentro da amostra. Por exemplo, depressões nos perfis de metilação geralmente indicam regiões regulatórias, e muitas regiões do corpo do gene são extensivamente metiladas e pobres em CpG. Estas observações podem descrever as estruturas e a função dos genes. Os estados de metilação (incluindo regiões de baixa metilação, regiões totalmente metiladas e regiões não metiladas) podem ser identificados pela segmentação do metiloma utilizando abordagens computacionais, como MethylSeekR e MethPipe.

  • Anotação do MDR/DMS e segmentos

O DMR/DMS e os segmentos muitas vezes precisam ser interpretados em termos biológicos com a base de dados de anotação do genoma. Existem várias ferramentas que podem produzir tais anotações. Por exemplo, o pacote Bioconductor genomation pode ser utilizado para anotar DMR/DMS e integrar proporções de metilação. O CHIPpeakAnno, outro pacote semelhante, é projetado não apenas para anotação de picos de ChIP-seq, mas também para anotação de DMR/DMC até certo ponto.

  • Análise de agrupamento

A agrupamento refere-se à organização de objetos em grupos com base na semelhança. A análise de agrupamento é importante na identificação de subtipos moleculares de doenças. A análise PCA, também conhecida como análise de componentes principais, é um método comum para detectar padrões em dados de metilação entre diferentes tratamentos ou diferentes estágios de desenvolvimento, explicando assim a variação dos padrões de metilação em diferentes tratamentos. A análise PCA também detecta efeitos de lote. Outro método comum para a análise de agrupamento é o agrupamento hierárquico. Ferramentas como HumMeth27QCReport e methylkit oferecem opções de PCA e agrupamento hierárquico utilizando dados normalizados. M-valores.

  • Análise de vias

De acordo com os dados de metilação de cada amostra, foi realizada uma análise de agrupamento e uma análise de enriquecimento para analisar a similaridade entre as amostras. Normalmente, inclui a análise de enriquecimento GO e a análise de vias KEGG, ambas utilizando o servidor web DAVID.

análise GOA Ontologia Genética (GO) é um sistema de classificação padrão internacional para a função dos genes. Realizar uma análise de enriquecimento GO em genes relacionados pode explorar as funções biológicas, a composição celular e os processos biológicos dos genes regulados por DMR.

Análise de vias KEGG. A análise de enriquecimento significativo de vias KEGG pode determinar as vias metabólicas bioquímicas e as vias de transdução de sinal mais importantes envolvidas nos genes regulados por DMR.

Na CD Genomics, estamos dedicados a fornecer soluções fiáveis. sequenciação epigenómica serviços, incluindo sequenciação de bisulfito direcionadasequenciação de bisulfito com representação reduzida (RRBS)sequenciação de bisulfito de genoma completoSequenciação MeDIPe ChIP-seqSe estiver interessado nos nossos serviços, não hesite em contactar-nos.

Referências:

  1. De Carvalho D.D. et al. A triagem de metilação do DNA identifica eventos epigenéticos impulsionadores da sobrevivência das células cancerígenas. Célula Cancerígena, 2012, 21(5):655-667
  2. Jeong M., Goodell M. A. Novas respostas a velhas questões a partir de mapas genómicos de metilação de DNA em células hematopoiéticas. Exp Hematol, 2014, 42(8):609-617
  3. Kulis M., Esteller M. Metilação do DNA e cancro. Adv Genet, 2010 70:27-56
  4. Wu H., Xu T., Feng H., et al.Deteção de regiões diferencialmente metiladas a partir de dados de sequenciação de bisulfito de todo o genoma sem réplicas. Ácidos Nucleicos Res, 2015, 43(21):132-141.
  5. Swarnaseetha A., Aspectos metodológicos da análise de sequenciação bisulfito de genoma completo. Briefings in Bioinformatics, 2015, (1): 369-379.
  6. Condon D.E., et al.Defiant: (DMRs: fácil, rápido, identificação e anotação) identifica regiões diferencialmente metiladas do hipocampo de ratos com deficiência de ferro. BMC bioinformática, 2018, 19(1): 31.
  7. Wreczycka K, et al.Estratégias para analisar dados de sequenciação com bisulfito. Journal of Biotechnology, 2017, 261: 105-115.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo