A sequenciação PacBio opera com base no conceito de síntese e sequenciação simultâneas. Isso envolve a imobilização de dNTP livre no substrato, acionando a excitação da luz para gerar um sinal fluorescente. Devido aos espaços confinados nos poços de sequenciação, o sinal fluorescente tem uma distância de viagem limitada. No culminar de cada síntese de base, o grupo fosfato fluorescente se desliga do dNTP, levando ao apagamento do sinal. Isso resulta na geração de um sinal fluorescente que oscila de fraco a forte e vice-versa durante cada síntese de base. A gravação em tempo real desses sinais por um sensor facilita sua conversão em um formato digital, criando uma curva de pulso de intensidade de sinal de fluorescência ao longo do tempo para identificação precisa de bases.
Distinguir 5mC de não-5mC apresenta desafios distintos em comparação com a detecção de 6mA. O impacto sutil de 5mC nas propriedades cinéticas da DNA polimerase torna difícil observar diferenças significativas nas curvas de pulso. Superar esse obstáculo requer a identificação de variáveis características capazes de discernir 5mC. O conhecimento existente destaca a capacidade da PacBio de reconhecer tipos de base e gerar curvas de pulso de fluorescência em tempo real variáveis. Para abordar isso, a equipe de pesquisa considerou sistematicamente várias variáveis para caracterizar as bases de citosina da PacBio e seus ambientes. Essas variáveis incluem a base contextual do C, o intervalo entre os picos de curva vizinhos (IPD) e a diferença entre os picos de início e fim (PW).
1. Informação da Base Contextual:
Precisão no Reconhecimento de Bases: A identificação precisa de tipos de base pela PacBio permite a determinação da base contextual para cada C.
2. Variáveis da Curva de Pulso de Fluorescência:
Intervalo para Diferença de Tempo (IPD): Descrevendo a diferença de tempo entre picos de curva adjacentes, o IPD caracteriza a variação de tempo entre bases dentro da fita de DNA sintetizada.
Diferença entre Picos: Caracterizando a diferença de tempo entre a entrada e saída de uma base na fita de DNA sintetizada, a diferença entre os picos de uma curva fornece insights valiosos.
Aproveitando essas variáveis definidoras, a equipe de pesquisa buscou extrair insights adicionais sobre as características das bases de citosina e seus arredores imediatos no processo de sequenciação PacBio. Esta exploração visa descobrir um ensaio robusto para a detecção de 5mC.
Para criar conjuntos de dados de treinamento robustos, os autores elaboram um conjunto de dados de sequenciação de Amplificação do Genoma Inteiro (WGA) como um conjunto de dados de teste negativo, utilizando a amplificação de dNTP não metilados. Para o conjunto de dados de teste positivo, é empregado um conjunto de dados de sequenciação com metilação de CpG tratado pela enzima M.SssI. O conjunto de dados de teste negativo é caracterizado por locais predominantemente não metilados, com potenciais sinais de metilação surgindo exclusivamente dos locais metilados do genoma de fundo.
A enzima M.SssI, proveniente de uma cepa de E. coli, torna-se um elemento crucial. Esta enzima, portadora de um gene de metiltransferase de Sprioplasma sp. MQ1, induz metilação em todos os locais CpG no DNA de cadeia dupla.
As amostras de treinamento positivas são extraídas do conjunto de dados positivo tratado com a enzima M.SssI, enquanto amostras adicionais de treinamento são selecionadas do conjunto de dados de teste negativo com quantidades moderadas de locais CpG. Estas são combinadas para treinar o Modelo Oculto de Markov (HMM). As amostras restantes são reservadas para testes de avaliação do modelo.
Os kits de sequenciação Sequel II da PacBio são empregados para gerar dados de sequenciação para o treinamento do modelo.
O modelo HK demonstra sua capacidade de distinguir efetivamente entre citosinas metiladas e não metiladas em diversos dados de teste gerados por diferentes kits de sequenciação. Uma análise da curva AUC identifica um valor crítico de corte de 0.5 para essa discriminação.
Um Modelo Oculto de Markov (HMM) adicional é introduzido para avaliar o desempenho do ensaio de 5mC, particularmente para uma amostra BC01 com alta profundidade de sequenciação. Notavelmente, o desempenho de detecção de metilação do HMM para a amostra BC01 (83% de sensibilidade + 84% de especificidade) é encontrado como sendo inferior ao do modelo HK baseado em CNN (87% de sensibilidade + 92% de especificidade).
O estudo investiga o impacto do tamanho da janela variável, do comprimento da sequência contextual e da profundidade de sequenciação na detecção de metilação pelo modelo HK.
Referências: