Revelando a Metilação 5mC com Sequenciação PacBio e Aprendizagem Automática

Introdução ao Princípio de Sequenciação PacBio

A sequenciação PacBio opera com base no conceito de síntese e sequenciação simultâneas. Isso envolve a imobilização de dNTP livre no substrato, acionando a excitação da luz para gerar um sinal fluorescente. Devido aos espaços confinados nos poços de sequenciação, o sinal fluorescente tem uma distância de viagem limitada. No culminar de cada síntese de base, o grupo fosfato fluorescente se desliga do dNTP, levando ao apagamento do sinal. Isso resulta na geração de um sinal fluorescente que oscila de fraco a forte e vice-versa durante cada síntese de base. A gravação em tempo real desses sinais por um sensor facilita sua conversão em um formato digital, criando uma curva de pulso de intensidade de sinal de fluorescência ao longo do tempo para identificação precisa de bases.

Desafios na Detecção de 5mC

Distinguir 5mC de não-5mC apresenta desafios distintos em comparação com a detecção de 6mA. O impacto sutil de 5mC nas propriedades cinéticas da DNA polimerase torna difícil observar diferenças significativas nas curvas de pulso. Superar esse obstáculo requer a identificação de variáveis características capazes de discernir 5mC. O conhecimento existente destaca a capacidade da PacBio de reconhecer tipos de base e gerar curvas de pulso de fluorescência em tempo real variáveis. Para abordar isso, a equipe de pesquisa considerou sistematicamente várias variáveis para caracterizar as bases de citosina da PacBio e seus ambientes. Essas variáveis incluem a base contextual do C, o intervalo entre os picos de curva vizinhos (IPD) e a diferença entre os picos de início e fim (PW).

1. Informação da Base Contextual:

Precisão no Reconhecimento de Bases: A identificação precisa de tipos de base pela PacBio permite a determinação da base contextual para cada C.

2. Variáveis da Curva de Pulso de Fluorescência:

Intervalo para Diferença de Tempo (IPD): Descrevendo a diferença de tempo entre picos de curva adjacentes, o IPD caracteriza a variação de tempo entre bases dentro da fita de DNA sintetizada.

Diferença entre Picos: Caracterizando a diferença de tempo entre a entrada e saída de uma base na fita de DNA sintetizada, a diferença entre os picos de uma curva fornece insights valiosos.

Aproveitando essas variáveis definidoras, a equipe de pesquisa buscou extrair insights adicionais sobre as características das bases de citosina e seus arredores imediatos no processo de sequenciação PacBio. Esta exploração visa descobrir um ensaio robusto para a detecção de 5mC.

Fluxo de Trabalho de Aprendizagem de Máquina

  • Preparação do Conjunto de Dados

Para criar conjuntos de dados de treinamento robustos, os autores elaboram um conjunto de dados de sequenciação de Amplificação do Genoma Inteiro (WGA) como um conjunto de dados de teste negativo, utilizando a amplificação de dNTP não metilados. Para o conjunto de dados de teste positivo, é empregado um conjunto de dados de sequenciação com metilação de CpG tratado pela enzima M.SssI. O conjunto de dados de teste negativo é caracterizado por locais predominantemente não metilados, com potenciais sinais de metilação surgindo exclusivamente dos locais metilados do genoma de fundo.

  • Insight Enzimático

A enzima M.SssI, proveniente de uma cepa de E. coli, torna-se um elemento crucial. Esta enzima, portadora de um gene de metiltransferase de Sprioplasma sp. MQ1, induz metilação em todos os locais CpG no DNA de cadeia dupla.

  • Treinamento do Modelo

As amostras de treinamento positivas são extraídas do conjunto de dados positivo tratado com a enzima M.SssI, enquanto amostras adicionais de treinamento são selecionadas do conjunto de dados de teste negativo com quantidades moderadas de locais CpG. Estas são combinadas para treinar o Modelo Oculto de Markov (HMM). As amostras restantes são reservadas para testes de avaliação do modelo.

  • Tecnologia de Sequenciação

Os kits de sequenciação Sequel II da PacBio são empregados para gerar dados de sequenciação para o treinamento do modelo.

  • Proficiência do Modelo

O modelo HK demonstra sua capacidade de distinguir efetivamente entre citosinas metiladas e não metiladas em diversos dados de teste gerados por diferentes kits de sequenciação. Uma análise da curva AUC identifica um valor crítico de corte de 0.5 para essa discriminação.

  • Avaliação Comparativa

Um Modelo Oculto de Markov (HMM) adicional é introduzido para avaliar o desempenho do ensaio de 5mC, particularmente para uma amostra BC01 com alta profundidade de sequenciação. Notavelmente, o desempenho de detecção de metilação do HMM para a amostra BC01 (83% de sensibilidade + 84% de especificidade) é encontrado como sendo inferior ao do modelo HK baseado em CNN (87% de sensibilidade + 92% de especificidade).

  • Explorando Variáveis

O estudo investiga o impacto do tamanho da janela variável, do comprimento da sequência contextual e da profundidade de sequenciação na detecção de metilação pelo modelo HK.

Referências:

  1. Tse OYO, Jiang P, Cheng SH, Peng W, Shang H, Wong J, Chan SL, Poon LCY, Leung TY, Chan KCA, Chiu RWK, Lo YMD. Detecção em todo o genoma de metilação de citosina por sequenciação em tempo real de molécula única. Proc Natl Acad Sci U S A. 2021 Feb 2;118(5):e2019768118.
  2. Choy LYL, Peng W, Jiang P, Cheng SH, Yu SCY, Shang H, Olivia Tse OY, Wong J, Wong VWS, Wong GLH, Lam WKJ, Chan SL, Chiu RWK, Chan KCA, Lo YMD. A Sequenciação de Molécula Única Permite a Detecção Longa de DNA Livre de Células e Análise Direta de Metilação para Pacientes com Câncer. Clin Chem. 2022 Sep 1;68(9):1151-1163.
  3. Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, Korlach J, Turner SW. Detecção direta de metilação de DNA durante sequenciação em tempo real de molécula única. Nat Methods. 2010 Jun;7(6):461-5.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo