Sequenciação de Sanger, como uma tecnologia madura e amplamente utilizada Sequenciação de DNA A tecnologia é uma base importante para a obtenção de informações genéticas na pesquisa em biologia molecular, diagnóstico clínico e outros campos. Os resultados do sequenciamento de Sanger são geralmente apresentados em duas formas: mapa de eletroforese (ou seja, mapa de picos de sequenciamento) e a sequência de bases correspondente, onde o mapa de picos mostra diretamente a separação de diferentes bases no processo de sequenciamento, enquanto a sequência de bases é uma interpretação direta do mapa de picos.
Esta forma de apresentação de resultados tem as características básicas de alta resolução em nível de base única e alta precisão, podendo refletir a informação de base de cada posição em fragmentos de ADN. No entanto, para muitos investigadores e clínicos, não é fácil interpretar os resultados do sequenciamento de Sanger. Na prática, podem encontrar problemas como padrões de picos caóticos, padrões de picos anormais e dificuldades na identificação de bases, especialmente quando confrontados com mutações, inserções, deleções e outras variações. Julgar e analisar esta informação com precisão é um grande desafio. Além disso, combinar os resultados do sequenciamento com os objetivos da pesquisa e aplicá-los de forma razoável ao desenho experimental e à derivação de conclusões também requer uma rica experiência e conhecimento profissional.
Este artigo elabora sobre as formas de apresentação, indicadores de avaliação da qualidade, métodos de análise de dados e aplicações dos resultados do sequenciamento Sanger, com o objetivo de ajudar os investigadores a interpretar e aplicar esses resultados de forma precisa.
Os resultados da sequenciação de Sanger são apresentados principalmente em duas formas: mapa de picos de eletroforese e sequência de bases. Os picos de diferentes cores no diagrama de picos correspondem às bases A, T, C e G, e a clareza e altura dos picos refletem a qualidade do sinal. A sequência de bases é convertida a partir do mapa de picos com o valor de massa anexado. É caracterizada por uma alta resolução de base única e pode exibir detalhes da sequência de forma intuitiva, mas também apresenta problemas de limitação de comprimento de leitura e atenuação do sinal terminal.
O mapa de eletroforese do sequenciamento de Sanger é gerado pela separação de fragmentos de DNA de diferentes comprimentos através da tecnologia de eletroforese capilar. No mapa, o eixo horizontal representa a posição da base (ou seja, o comprimento do sequenciamento) e o eixo vertical representa a intensidade do sinal de fluorescência. Durante a eletroforese, os didesoxirribonucleotídeos (ddNTPs) com diferentes etiquetas fluorescentes serão reconhecidos pelo detector com a migração dos fragmentos de DNA. Diferentes bases correspondem a diferentes cores fluorescentes: a adenina (A) é verde, a citosina (C) é azul, a guanina (G) é preta ou amarela, e a timina (T) é vermelha.
O significado do pico é o núcleo da leitura do atlas. Cada pico claro e nítido representa a aparição de uma base específica nesta posição, e a altura do pico está relacionada à intensidade do sinal da base. Quanto maior a intensidade do sinal, mais acentuado é o tipo de pico, indicando que a reação de sequenciação tem uma alta eficiência de extensão e boa especificidade nesta posição. O arranjo contínuo do padrão de picos forma uma sequência de ADN completa, e a cor e a posição do pico podem ser identificadas por software, que pode ser diretamente convertido na sequência de bases correspondente.
Mapa de sequenciação Sanger (Li et al., 2022)
Para avaliar objetivamente a fiabilidade dos resultados do sequenciamento de Sanger, os investigadores introduziram uma série de indicadores de avaliação de qualidade, entre os quais os mais utilizados são a fração de massa Phred e a profundidade de sequenciamento.
A fração de massa (valor Q) de Phred é um índice importante para medir a precisão do reconhecimento de uma única base, e a sua fórmula de cálculo é Q = -10log10 (P), onde P é a probabilidade de erro no reconhecimento da base. Por exemplo, Q20 significa que a probabilidade de erro desta base é de 1%, e Q30 significa que a probabilidade de erro é de 0,1%. Na aplicação prática, geralmente se requer que a proporção de bases acima de Q20 seja superior a 90% e a de bases acima de Q30 seja superior a 80% nos resultados de sequenciamento para garantir a precisão dos dados de sequenciamento. Através de software de análise de sequenciamento profissional (como Sequencher, BioEdit, etc.), a fração de massa Phred de cada base pode ser visualizada, o que ajuda os pesquisadores a julgar a credibilidade dos resultados de sequenciamento em diferentes regiões.
A profundidade de sequenciamento refere-se geralmente ao número de vezes que o mesmo fragmento de DNA é sequenciado no sequenciamento Sanger. Diferente do sequenciamento de alto rendimento, a profundidade de sequenciamento do sequenciamento Sanger é geralmente baixa (normalmente 1-2 vezes), mas devido à sua alta precisão, um único resultado de sequenciamento pode satisfazer a maioria dos requisitos experimentais. Em algumas situações que exigem alta precisão dos resultados (como a confirmação de mutações em diagnósticos clínicos), o mesmo template é geralmente sequenciado em duas direções (para a frente e para trás) ou repetidamente para melhorar a fiabilidade dos resultados. Os resultados do sequenciamento bidirecional podem verificar-se mutuamente, reduzir os possíveis erros causados pelo sequenciamento em uma única direção e são especialmente adequados para detectar variações em longos fragmentos de DNA.
Além disso, o comprimento de leitura dos resultados de sequenciação é também um índice de avaliação importante. O comprimento médio de leitura da sequenciação Sanger é geralmente de 500-800 bases, e o comprimento de leitura de resultados de sequenciação de alta qualidade pode ultrapassar 1000 bases. O comprimento da leitura afetará a cobertura de fragmentos longos de DNA. Ao projetar experimentos de sequenciação, é necessário organizar estratégias de sequenciação de forma razoável de acordo com o comprimento dos fragmentos-alvo para garantir que toda a área-alvo possa ser coberta.
Sequenciação de Sanger vs sequenciação de nova geração (NGS) (Botella et al., 2015)
A sequenciação de Sanger é uma tecnologia de sequenciação genética de alta precisão, e a sua análise de dados é a ligação chave para a mineração de informações genéticas. Este processo precisa de se basear em ferramentas profissionais para analisar picos de eletroforese, identificar sequências de bases, avaliar a fiabilidade combinando indicadores de qualidade, detectar com precisão anomalias como bimodalidade e mutações, e revelar variações genéticas através da comparação com sequências de referência, fornecendo uma base fundamental para a investigação científica e aplicações clínicas.
A análise dos resultados do sequenciamento de Sanger necessita da ajuda de ferramentas de software profissionais, que podem ajudar os investigadores a identificar rapidamente sequências de bases, avaliar a qualidade das sequências, comparar sequências de referência e detectar variações. A seguir, são apresentadas várias ferramentas de software comumente utilizadas e as suas principais funções.
FinchTV é um software gratuito e fácil de usar para visualizar resultados de sequenciação, que suporta vários formatos de ficheiros de sequenciação (como .ab1, .scf, etc.). As suas principais funções incluem a exibição do eletroferograma, da sequência de bases e da fração de massa correspondente de Phred. Os utilizadores podem observar diretamente as alterações no padrão dos picos ao ampliar os detalhes do eletroferograma e corrigir manualmente a base errada identificada automaticamente pelo software. Além disso, o FinchTV também oferece uma função de comparação de sequências, que permite comparar facilmente os resultados de sequenciação com sequências de referência e julgar preliminarmente se existe variação.
Chromas é outro software de análise de sequências amplamente utilizado, que é mais poderoso. Além das funções básicas do FinchTV, também suporta edição de sequências, geração de sequências complementares reversas, análise de locais de restrição, entre outros.
Para investigadores que precisam de realizar análises de sequências em larga escala ou deteção complexa de mutações, podem ser selecionados softwares avançados como Sequencher e BioEdit. Estes softwares suportam alinhamento múltiplo de sequências, deteção automática de mutações, emenda de sequências sobrepostas e outras funções, sendo adequados para cenários de investigação como verificação de clonagem de genes e triagem de mutações.
A interface do utilizador do SeqTrace, incluindo a janela do projeto (A) e a janela de visualização do traço (B) (Stucky et al., 2012)
Serviços que pode estar interessado em
Saiba Mais
Nos resultados de sequenciação de Sanger, muitas vezes existem picos anormais, como picos duplos, picos de deleção, picos de ruído, etc. Estes problemas afetam a identificação precisa das sequências de bases e precisam ser corretamente identificados e processados.
Bimodal refere-se a dois picos altamente semelhantes na mesma posição base, que são geralmente causados por poluição do template, amostras heterozigóticas ou amplificação não específica durante o sequenciamento.
A-N As principais questões encontradas na leitura de cromatogramas de DNA de produtos de PCR com base no método de sequenciação Sanger (Al-Shuhaib et al., 2023)
Comparar os resultados de sequenciação com a sequência de referência é o passo chave para analisar os dados de sequenciação. Tipos de mutações, como mutação, inserção e deleção, podem ser detectados através da comparação, o que fornece uma base para investigações subsequentes.
Em primeiro lugar, é necessário obter a sequência de referência do gene ou fragmento alvo, que pode ser descarregada de bases de dados públicas como o GenBank. Em seguida, utiliza-se software de comparação de sequências (como BLAST, ClustalW, MegAlign, etc.) para comparar a sequência sequenciada com a sequência de referência. Os resultados do alinhamento são geralmente apresentados na forma de alinhamento de sequências, onde as mesmas bases são representadas pelos mesmos caracteres, bases diferentes são marcadas por caracteres diferentes, e bases inseridas ou faltantes são representadas por linhas horizontais ou outros símbolos.
Na deteção de mutações, a mutação pontual é o tipo de mutação mais comum, que mostra que uma base na sequência de sequenciamento é diferente da sequência de referência. Por exemplo, a base na sequência de referência é "A" e a posição correspondente na sequência de sequenciamento é "G", o que indica que há uma mutação pontual com G>A nesta posição. Ao observar o tipo de pico e a fração de massa Phred desta posição, podemos confirmar a fiabilidade da mutação e evitar resultados falso-positivos causados por erros de sequenciamento.
Comparando os diferentes processos do método Sanger e da NGS na deteção de diferentes patógenos (Nafea et al., 2023)
O sequenciamento Sanger tornou-se a pedra angular da investigação em biologia molecular, com alta precisão, e os seus resultados têm aplicações insubstituíveis em muitos campos. Desde a verificação da clonagem de genes para garantir a inserção correta de fragmentos, até ao diagnóstico e tratamento de doenças através da deteção de mutações, passando pelo estudo da função dos genes para revelar o mecanismo da ação genética, a interpretação precisa dos resultados de sequenciamento é a chave para promover o progresso da investigação científica e clínica.
Na investigação em engenharia genética, é necessário verificar a correção do fragmento inserido através de sequenciação Sanger após a construção do plasmídeo recombinante. A equipa de investigação inseriu um gene alvo no vetor pET-28a para construir um plasmídeo de expressão recombinante. Após a sequenciação do plasmídeo recombinante, os resultados da sequenciação foram comparados com a sequência de referência e a sequência do vetor do gene alvo. Verificou-se que a sequência do fragmento inserido estava completamente consistente com o gene alvo, e a direção da inserção estava correta, sem mutações ou deleções de bases, o que indicou que o plasmídeo recombinante foi construído com sucesso e poderia ser utilizado para os subsequentes experimentos de expressão de proteínas.
Cromatograma de sequência (A) e avaliação da qualidade da sequência (B) da cepa clinica Staphylococcus aureus 1 (Chen et al., 2014)
No diagnóstico clínico, a sequenciação de Sanger é frequentemente utilizada para detectar mutações genéticas relacionadas a doenças. Ao detetar mutações no gene EGFR em amostras de tecido tumoral de pacientes suspeitos de câncer de pulmão, a mutação de deleção do exon 19 foi encontrada nas amostras dos pacientes ao sequenciar as regiões de mutação quente do gene EGFR. Combinando com os sintomas clínicos e outros resultados de exames do paciente, pode-se determinar que o paciente é adequado para tratamento com inibidores da tirosina quinase do EGFR.
No estudo da função dos genes, o sequenciamento Sanger pode ser utilizado para verificar o efeito de experiências de knock-out ou knock-in de genes. Os investigadores utilizaram a tecnologia CRISPR-Cas9 para eliminar um gene em ratos, amplificaram a região do gene-alvo por PCR e sequenciaram-na. Se os resultados do sequenciamento mostrarem que existe uma mutação de deleção ou inserção esperada na região do gene-alvo, e a mutação provoca uma alteração no quadro de leitura do gene, isso indica que o knock-out do gene foi bem-sucedido. Subsequentemente, a função biológica do gene pode ser estudada observando as alterações fenotípicas dos ratos knockout.
Curvas de amplificação (A) e curvas de fusão (B) de estirpes experimentais parciais (Chen et al., 2014)
A interpretação e análise corretas dos resultados de sequenciação Sanger são fundamentais para maximizar as vantagens desta tecnologia, que não só se relaciona com a fiabilidade dos resultados experimentais, mas também afeta a formulação de direções de investigação subsequentes e a precisão das conclusões científicas. Ao dominar a forma de apresentação, o índice de avaliação de qualidade e o método de análise de dados dos resultados de sequenciação, os investigadores podem identificar com precisão sequências de bases e detetar variações genéticas, aplicando efetivamente os dados de sequenciação à verificação de clonagem de genes, deteção de mutações, investigação da função genética e outros campos.
Referências: