Interpretação dos Resultados de Sequenciação Sanger: Como Analisar e Aplicar Dados de Sequenciação

Sequenciação de Sanger, como uma tecnologia madura e amplamente utilizada Sequenciação de DNA A tecnologia é uma base importante para a obtenção de informações genéticas na pesquisa em biologia molecular, diagnóstico clínico e outros campos. Os resultados do sequenciamento de Sanger são geralmente apresentados em duas formas: mapa de eletroforese (ou seja, mapa de picos de sequenciamento) e a sequência de bases correspondente, onde o mapa de picos mostra diretamente a separação de diferentes bases no processo de sequenciamento, enquanto a sequência de bases é uma interpretação direta do mapa de picos.

Esta forma de apresentação de resultados tem as características básicas de alta resolução em nível de base única e alta precisão, podendo refletir a informação de base de cada posição em fragmentos de ADN. No entanto, para muitos investigadores e clínicos, não é fácil interpretar os resultados do sequenciamento de Sanger. Na prática, podem encontrar problemas como padrões de picos caóticos, padrões de picos anormais e dificuldades na identificação de bases, especialmente quando confrontados com mutações, inserções, deleções e outras variações. Julgar e analisar esta informação com precisão é um grande desafio. Além disso, combinar os resultados do sequenciamento com os objetivos da pesquisa e aplicá-los de forma razoável ao desenho experimental e à derivação de conclusões também requer uma rica experiência e conhecimento profissional.

Este artigo elabora sobre as formas de apresentação, indicadores de avaliação da qualidade, métodos de análise de dados e aplicações dos resultados do sequenciamento Sanger, com o objetivo de ajudar os investigadores a interpretar e aplicar esses resultados de forma precisa.

Apresentação dos Resultados de Sequenciação Sanger

Os resultados da sequenciação de Sanger são apresentados principalmente em duas formas: mapa de picos de eletroforese e sequência de bases. Os picos de diferentes cores no diagrama de picos correspondem às bases A, T, C e G, e a clareza e altura dos picos refletem a qualidade do sinal. A sequência de bases é convertida a partir do mapa de picos com o valor de massa anexado. É caracterizada por uma alta resolução de base única e pode exibir detalhes da sequência de forma intuitiva, mas também apresenta problemas de limitação de comprimento de leitura e atenuação do sinal terminal.

Interpretação do Atlas de Eletroforese

O mapa de eletroforese do sequenciamento de Sanger é gerado pela separação de fragmentos de DNA de diferentes comprimentos através da tecnologia de eletroforese capilar. No mapa, o eixo horizontal representa a posição da base (ou seja, o comprimento do sequenciamento) e o eixo vertical representa a intensidade do sinal de fluorescência. Durante a eletroforese, os didesoxirribonucleotídeos (ddNTPs) com diferentes etiquetas fluorescentes serão reconhecidos pelo detector com a migração dos fragmentos de DNA. Diferentes bases correspondem a diferentes cores fluorescentes: a adenina (A) é verde, a citosina (C) é azul, a guanina (G) é preta ou amarela, e a timina (T) é vermelha.

O significado do pico é o núcleo da leitura do atlas. Cada pico claro e nítido representa a aparição de uma base específica nesta posição, e a altura do pico está relacionada à intensidade do sinal da base. Quanto maior a intensidade do sinal, mais acentuado é o tipo de pico, indicando que a reação de sequenciação tem uma alta eficiência de extensão e boa especificidade nesta posição. O arranjo contínuo do padrão de picos forma uma sequência de ADN completa, e a cor e a posição do pico podem ser identificadas por software, que pode ser diretamente convertido na sequência de bases correspondente.

The Sanger sequencing map (Li et al., 2022)Mapa de sequenciação Sanger (Li et al., 2022)

Índice de Avaliação da Qualidade

Para avaliar objetivamente a fiabilidade dos resultados do sequenciamento de Sanger, os investigadores introduziram uma série de indicadores de avaliação de qualidade, entre os quais os mais utilizados são a fração de massa Phred e a profundidade de sequenciamento.

A fração de massa (valor Q) de Phred é um índice importante para medir a precisão do reconhecimento de uma única base, e a sua fórmula de cálculo é Q = -10log10 (P), onde P é a probabilidade de erro no reconhecimento da base. Por exemplo, Q20 significa que a probabilidade de erro desta base é de 1%, e Q30 significa que a probabilidade de erro é de 0,1%. Na aplicação prática, geralmente se requer que a proporção de bases acima de Q20 seja superior a 90% e a de bases acima de Q30 seja superior a 80% nos resultados de sequenciamento para garantir a precisão dos dados de sequenciamento. Através de software de análise de sequenciamento profissional (como Sequencher, BioEdit, etc.), a fração de massa Phred de cada base pode ser visualizada, o que ajuda os pesquisadores a julgar a credibilidade dos resultados de sequenciamento em diferentes regiões.

A profundidade de sequenciamento refere-se geralmente ao número de vezes que o mesmo fragmento de DNA é sequenciado no sequenciamento Sanger. Diferente do sequenciamento de alto rendimento, a profundidade de sequenciamento do sequenciamento Sanger é geralmente baixa (normalmente 1-2 vezes), mas devido à sua alta precisão, um único resultado de sequenciamento pode satisfazer a maioria dos requisitos experimentais. Em algumas situações que exigem alta precisão dos resultados (como a confirmação de mutações em diagnósticos clínicos), o mesmo template é geralmente sequenciado em duas direções (para a frente e para trás) ou repetidamente para melhorar a fiabilidade dos resultados. Os resultados do sequenciamento bidirecional podem verificar-se mutuamente, reduzir os possíveis erros causados pelo sequenciamento em uma única direção e são especialmente adequados para detectar variações em longos fragmentos de DNA.

Além disso, o comprimento de leitura dos resultados de sequenciação é também um índice de avaliação importante. O comprimento médio de leitura da sequenciação Sanger é geralmente de 500-800 bases, e o comprimento de leitura de resultados de sequenciação de alta qualidade pode ultrapassar 1000 bases. O comprimento da leitura afetará a cobertura de fragmentos longos de DNA. Ao projetar experimentos de sequenciação, é necessário organizar estratégias de sequenciação de forma razoável de acordo com o comprimento dos fragmentos-alvo para garantir que toda a área-alvo possa ser coberta.

Sanger sequencing versus next generation sequencing (NGS) (Botella et al., 2015)Sequenciação de Sanger vs sequenciação de nova geração (NGS) (Botella et al., 2015)

Método de Análise de Dados de Sequenciação Sanger

A sequenciação de Sanger é uma tecnologia de sequenciação genética de alta precisão, e a sua análise de dados é a ligação chave para a mineração de informações genéticas. Este processo precisa de se basear em ferramentas profissionais para analisar picos de eletroforese, identificar sequências de bases, avaliar a fiabilidade combinando indicadores de qualidade, detectar com precisão anomalias como bimodalidade e mutações, e revelar variações genéticas através da comparação com sequências de referência, fornecendo uma base fundamental para a investigação científica e aplicações clínicas.

Utilização de Ferramentas de Software Profissional

A análise dos resultados do sequenciamento de Sanger necessita da ajuda de ferramentas de software profissionais, que podem ajudar os investigadores a identificar rapidamente sequências de bases, avaliar a qualidade das sequências, comparar sequências de referência e detectar variações. A seguir, são apresentadas várias ferramentas de software comumente utilizadas e as suas principais funções.

FinchTV é um software gratuito e fácil de usar para visualizar resultados de sequenciação, que suporta vários formatos de ficheiros de sequenciação (como .ab1, .scf, etc.). As suas principais funções incluem a exibição do eletroferograma, da sequência de bases e da fração de massa correspondente de Phred. Os utilizadores podem observar diretamente as alterações no padrão dos picos ao ampliar os detalhes do eletroferograma e corrigir manualmente a base errada identificada automaticamente pelo software. Além disso, o FinchTV também oferece uma função de comparação de sequências, que permite comparar facilmente os resultados de sequenciação com sequências de referência e julgar preliminarmente se existe variação.

Chromas é outro software de análise de sequências amplamente utilizado, que é mais poderoso. Além das funções básicas do FinchTV, também suporta edição de sequências, geração de sequências complementares reversas, análise de locais de restrição, entre outros.

  • Na análise de padrões de picos, o Chromas pode identificar automaticamente padrões de picos anormais, como picos bimodais e heteropicos, e assinalar regiões de bases de baixa qualidade, o que ajuda os utilizadores a localizar rapidamente as regiões problemáticas nos resultados de sequenciação.
  • Ao mesmo tempo, o software também pode exportar os resultados de sequenciação para vários formatos (como FASTA, GenBank, etc.), o que é conveniente para a análise e armazenamento de dados subsequentes.

Para investigadores que precisam de realizar análises de sequências em larga escala ou deteção complexa de mutações, podem ser selecionados softwares avançados como Sequencher e BioEdit. Estes softwares suportam alinhamento múltiplo de sequências, deteção automática de mutações, emenda de sequências sobrepostas e outras funções, sendo adequados para cenários de investigação como verificação de clonagem de genes e triagem de mutações.

SeqTrace's user interface comprises the project window (A) and the trace-view window (B) (Stucky et al., 2012)A interface do utilizador do SeqTrace, incluindo a janela do projeto (A) e a janela de visualização do traço (B) (Stucky et al., 2012)

Identificação e Tratamento de Problemas Comuns

Nos resultados de sequenciação de Sanger, muitas vezes existem picos anormais, como picos duplos, picos de deleção, picos de ruído, etc. Estes problemas afetam a identificação precisa das sequências de bases e precisam ser corretamente identificados e processados.

Bimodal refere-se a dois picos altamente semelhantes na mesma posição base, que são geralmente causados por poluição do template, amostras heterozigóticas ou amplificação não específica durante o sequenciamento.

  • Para os picos duplos causados pela contaminação do template, o padrão de picos geralmente persiste ao longo do processo de sequenciação, e as intensidades de sinal dos dois picos são relativamente estáveis. Neste caso, é necessário preparar novamente as amostras para sequenciação.
  • Para amostras heterozigóticas (como a mutação heterozigótica no genoma humano), picos bimodais geralmente aparecem numa posição específica, e o tipo de pico retorna ao normal após esta posição, o que é um fenómeno biológico normal, sendo necessário registar a informação da base heterozigótica nesta posição.
  • O pico em falta mostra que não há um sinal de pico óbvio numa determinada posição, o que pode ser causado pela interrupção da reação de sequenciação, pela eliminação de grandes fragmentos no template, ou pela anomalia do local de ligação do primer. Se o pico em falta aparecer na região inicial da sequenciação, pode ser devido a uma má ligação do primer, por isso podemos tentar mudar os primers e re-sequenciar.
  • O pico de ruído (também conhecido como pico de fundo) refere-se ao pico de desordem de baixa intensidade entre os picos normais, que é geralmente causado por extensão não específica, interferência de fluorescência ou erro de deteção do instrumento na reação de sequenciação. Um ligeiro pico de ruído geralmente não afeta o reconhecimento de bases, mas quando a intensidade do pico de ruído é alta, pode levar a um erro de julgamento das bases. Métodos para lidar com picos de ruído incluem a otimização das condições da reação de sequenciação (como aumentar a temperatura de anelamento e reduzir a dosagem de primers), usar reagentes de sequenciação de alta qualidade ou corrigir manualmente regiões de bases de baixa qualidade através de software.

The primary problems encountered when reading DNA chromatograms of PCR products using the Sanger sequencing method (Al-Shuhaib et al., 2023)A-N As principais questões encontradas na leitura de cromatogramas de DNA de produtos de PCR com base no método de sequenciação Sanger (Al-Shuhaib et al., 2023)

Comparação com a Sequência de Referência

Comparar os resultados de sequenciação com a sequência de referência é o passo chave para analisar os dados de sequenciação. Tipos de mutações, como mutação, inserção e deleção, podem ser detectados através da comparação, o que fornece uma base para investigações subsequentes.

Em primeiro lugar, é necessário obter a sequência de referência do gene ou fragmento alvo, que pode ser descarregada de bases de dados públicas como o GenBank. Em seguida, utiliza-se software de comparação de sequências (como BLAST, ClustalW, MegAlign, etc.) para comparar a sequência sequenciada com a sequência de referência. Os resultados do alinhamento são geralmente apresentados na forma de alinhamento de sequências, onde as mesmas bases são representadas pelos mesmos caracteres, bases diferentes são marcadas por caracteres diferentes, e bases inseridas ou faltantes são representadas por linhas horizontais ou outros símbolos.

Na deteção de mutações, a mutação pontual é o tipo de mutação mais comum, que mostra que uma base na sequência de sequenciamento é diferente da sequência de referência. Por exemplo, a base na sequência de referência é "A" e a posição correspondente na sequência de sequenciamento é "G", o que indica que há uma mutação pontual com G>A nesta posição. Ao observar o tipo de pico e a fração de massa Phred desta posição, podemos confirmar a fiabilidade da mutação e evitar resultados falso-positivos causados por erros de sequenciamento.

A comparison of the distinct processes between the Sanger method and NGS in detecting various pathogens (Nafea et al., 2023)Comparando os diferentes processos do método Sanger e da NGS na deteção de diferentes patógenos (Nafea et al., 2023)

Aplicação do Sequenciamento de Sanger

O sequenciamento Sanger tornou-se a pedra angular da investigação em biologia molecular, com alta precisão, e os seus resultados têm aplicações insubstituíveis em muitos campos. Desde a verificação da clonagem de genes para garantir a inserção correta de fragmentos, até ao diagnóstico e tratamento de doenças através da deteção de mutações, passando pelo estudo da função dos genes para revelar o mecanismo da ação genética, a interpretação precisa dos resultados de sequenciamento é a chave para promover o progresso da investigação científica e clínica.

Verificação de Clonagem de Genes

Na investigação em engenharia genética, é necessário verificar a correção do fragmento inserido através de sequenciação Sanger após a construção do plasmídeo recombinante. A equipa de investigação inseriu um gene alvo no vetor pET-28a para construir um plasmídeo de expressão recombinante. Após a sequenciação do plasmídeo recombinante, os resultados da sequenciação foram comparados com a sequência de referência e a sequência do vetor do gene alvo. Verificou-se que a sequência do fragmento inserido estava completamente consistente com o gene alvo, e a direção da inserção estava correta, sem mutações ou deleções de bases, o que indicou que o plasmídeo recombinante foi construído com sucesso e poderia ser utilizado para os subsequentes experimentos de expressão de proteínas.

Sequence chromatogram (A) and sequence quality evaluation (B) derived from clinical Staphylococcus aureus strain 1 (Chen et al., 2014)Cromatograma de sequência (A) e avaliação da qualidade da sequência (B) da cepa clinica Staphylococcus aureus 1 (Chen et al., 2014)

Deteção de Mutação

No diagnóstico clínico, a sequenciação de Sanger é frequentemente utilizada para detectar mutações genéticas relacionadas a doenças. Ao detetar mutações no gene EGFR em amostras de tecido tumoral de pacientes suspeitos de câncer de pulmão, a mutação de deleção do exon 19 foi encontrada nas amostras dos pacientes ao sequenciar as regiões de mutação quente do gene EGFR. Combinando com os sintomas clínicos e outros resultados de exames do paciente, pode-se determinar que o paciente é adequado para tratamento com inibidores da tirosina quinase do EGFR.

Estudo sobre a Função dos Genes

No estudo da função dos genes, o sequenciamento Sanger pode ser utilizado para verificar o efeito de experiências de knock-out ou knock-in de genes. Os investigadores utilizaram a tecnologia CRISPR-Cas9 para eliminar um gene em ratos, amplificaram a região do gene-alvo por PCR e sequenciaram-na. Se os resultados do sequenciamento mostrarem que existe uma mutação de deleção ou inserção esperada na região do gene-alvo, e a mutação provoca uma alteração no quadro de leitura do gene, isso indica que o knock-out do gene foi bem-sucedido. Subsequentemente, a função biológica do gene pode ser estudada observando as alterações fenotípicas dos ratos knockout.

Amplification curves (A) and melting curves (B) belonging to partial experimental strains (Chen et al., 2014)Curvas de amplificação (A) e curvas de fusão (B) de estirpes experimentais parciais (Chen et al., 2014)

Conclusão

A interpretação e análise corretas dos resultados de sequenciação Sanger são fundamentais para maximizar as vantagens desta tecnologia, que não só se relaciona com a fiabilidade dos resultados experimentais, mas também afeta a formulação de direções de investigação subsequentes e a precisão das conclusões científicas. Ao dominar a forma de apresentação, o índice de avaliação de qualidade e o método de análise de dados dos resultados de sequenciação, os investigadores podem identificar com precisão sequências de bases e detetar variações genéticas, aplicando efetivamente os dados de sequenciação à verificação de clonagem de genes, deteção de mutações, investigação da função genética e outros campos.

Referências:

  1. Botella LM, Albiñana V, Ojeda-Fernandez L, Recio-Poveda L, Bernabéu C. "Investigação sobre potenciais biomarcadores na telangiectasia hemorrágica hereditária." Front Genet. 2015 6: 115 Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e eu farei a tradução.
  2. Li, Z., Lou, J., Li, W. et al. "Uma nova variante c.180 + 1G > A detectada causa uma diminuição da transcrição de FGA em pacientes com hipodysfibrinogenemia congénita." J Hematopatologia2022 15 259–263 Desculpe, não posso acessar links ou conteúdos externos. No entanto, posso ajudar a traduzir textos que você fornecer. Por favor, cole o texto que deseja traduzir.
  3. Stucky BJ. "SeqTrace: uma ferramenta gráfica para processar rapidamente cromatogramas de sequenciação de DNA." J Biomol Tech2012 23(3): 90-93 Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça o texto que deseja traduzir.
  4. Dunitz MI, Lang JM., et al. "Swabs para genomas: um fluxo de trabalho abrangente." PeerJ. 2015 3: e960 Desculpe, mas não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça o conteúdo que deseja traduzir.
  5. Nafea AM, Wang Y, Wang D, et al. "Aplicação de sequenciação de nova geração para identificar diferentes patógenos." Front Microbiol. 2024 14: 1329330 Desculpe, não posso acessar links ou conteúdos externos. No entanto, posso ajudar com a tradução de texto que você fornecer.
  6. Al-Shuhaib MBS, Hashim HO. "Dominar a análise de cromatogramas de DNA na sequenciação Sanger para uma análise clínica fiável." J Genet Eng Biotechnol2023 21(1): 115 Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça-o e eu ficarei feliz em ajudar com a tradução.
  7. Chen L, Cai Y, Zhou G, et al. "Sequenciação rápida de Sanger do gene 16S rRNA para identificação de alguns patógenos comuns." PLoS One. 2014 9(2): e88886 Desculpe, não posso acessar links ou conteúdos externos. Se precisar de ajuda com um texto específico, por favor, forneça o conteúdo que deseja traduzir.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo