Princípios da Sequenciação de Nova Geração (NGS) da Illumina
O principal benefício de Sequenciação Illumina é a sua alta capacidade de processamento, que permite operações em grande escala a baixo custo. Graças ao seu elevado volume e custo-eficácia, pode satisfazer a maioria das necessidades de sequenciação e deu início à era da sequenciação de alto rendimento. A sequenciação da Illumina tem uma vasta gama de aplicações. Inicialmente utilizada na montagem de genomas, foi posteriormente expandida para a deteção de variações, Sequenciação de RNAsequenciação de células únicas, rastreio pré-natal, deteção de tumores e outros campos.
No entanto, Sequenciação Illumina tem uma lacuna significativa—o seu comprimento de leitura é relativamente curto. Progressivamente, a partir de um comprimento inicial de 35pb, aumentou gradualmente para 75pb, 90pb e atualmente o mais longo disponível, 2x300pb. Apesar disso, o seu comprimento de leitura continua a ser algo curto. Esta inadequação pode complicar o manuseio de sequências repetidas e apresenta desafios para a montagem do genoma, deteção de variações de grandes fragmentos e pesquisa do transcriptoma completoAs limitações inerentes à tecnologia Illumina restringem qualquer extensão adicional do comprimento de leitura, e isso, até certo ponto, inibe a sua evolução.
O princípio básico por trás do sequenciamento do Analisador de Genoma Illumina/Solexa é a 'síntese por sequenciamento'. Durante o processo de síntese da fita complementar pela DNA polimerase, quatro dNTPs marcados com cores diferentes são adicionados consecutivamente. A adição de cada tipo de dNTP produz um sinal fluorescente específico. Este sinal é capturado e processado através de software especializado, resultando, em última análise, nos dados de DNA sequenciados.
O fluxo de trabalho de Sequenciação Illumina pode ser amplamente dividido em quatro etapas:
Construção de Biblioteca
Geração de Clusters
Sequenciação
Reconhecimento de Base
Serviço que pode interessá-lo
Construção de Biblioteca
O que é uma Biblioteca de DNA?
Para começar, o conceito de 'biblioteca' precisa ser elucidado. Neste contexto, uma biblioteca denota uma compilação de fragmentos de ADN. No processo de construção da biblioteca, os fragmentos de sequência sofrem fragmentação, culminando na formação de uma biblioteca de ADN.
Em termos simples, envolve a interrupção de moléculas de DNA ordenadas aleatoriamente usando técnicas—como a sonicação—em fragmentos menores dentro de um intervalo específico de comprimentos. Adaptadores únicos são então anexados em ambas as extremidades destes pequenos segmentos, resultando na construção de bibliotecas de DNA de cadeia simples. Estas bibliotecas são preparadas e mantidas para processos de sequenciação subsequentes.
Como Construir uma Biblioteca de DNA
O passo inicial na construção da biblioteca envolve a fragmentação aleatória de amostras de DNA. Neste ponto, estas amostras de DNA consistem principalmente em fragmentos mais longos, por exemplo, segmentos na faixa de 100-300K. Através da fragmentação aleatória, estas peças maiores são quebradas em fragmentos mais curtos. Existem diversos métodos à nossa disposição para a fragmentação de DNA, incluindo quebra mecânica, ultrassonicação e digestão enzimática, entre outros.
O comprimento do fragmento pode ser predefinido; por exemplo, se definirmos o comprimento do fragmento em 500 pares de bases (pb), estas peças maiores serão eventualmente quebradas em numerosos fragmentos curtos de 500pb, construindo assim uma biblioteca de 500pb. Outros comprimentos também podem ser selecionados, como as bibliotecas de 170pb e 350pb, amplamente utilizadas, bem como bibliotecas mais longas, incluindo 500pb, 800pb, 2k, 5k, 6k, e assim por diante. Normalmente, as bibliotecas com um tamanho inferior a 1000pb são referidas como bibliotecas de fragmentos curtos, enquanto aquelas com tamanhos maiores são denominadas bibliotecas de fragmentos longos.
É crucial notar que, ao referir-se a uma biblioteca de 500bp, 500bp serve apenas como um valor de pico, indicando que a maioria dos comprimentos dos fragmentos aproxima-se de 500bp. De facto, nem todos os fragmentos medem precisamente 500bp; podem existir segmentos de comprimentos variados, como 300bp ou 800bp. Após a fragmentação, fragmentos dentro de um certo intervalo podem ser recuperados através do processo de eletroforese. Para uma biblioteca de 500bp, fragmentos entre 300-800bp podem ser recuperados. O tamanho desta biblioteca—ou o tamanho do inserto—é de importância monumental e desempenhará um papel significativo nos processos subsequentes de montagem de sequências e alinhamento de leituras curtas. Uma vez que uma biblioteca de DNA adequada é recuperada, uma série de procedimentos subsequentes deve ser realizada.
Primeiro, adicionamos uma base de adenina (A) na extremidade 3' da sequência. Esta conversão de uma extremidade reta para uma extremidade pegajosa facilita a ligação a primers e adaptadores subsequentes. Após a adição da base de adenina, são integrados primers de sequenciação. Em seguida, é introduzida uma etiqueta de índice, um fragmento de 6-8 bp, utilizado para distinguir várias amostras de sequenciação. Dada a enorme quantidade de dados gerados em tecnologias de sequenciação de alto rendimento, como 30G de dados de uma pista, enquanto a sequenciação de um genoma bacteriano pode exigir apenas 1G de dados, é possível misturar DNA de diferentes espécies dentro de um único processo de sequenciação. Assim, devemos adicionar etiquetas de índice únicas para estabelecer distinção entre amostras misturadas, seja DNA animal, vegetal ou microbiano, para posterior partição de dados.
Após a adição do índice, os adaptadores de terminais são incorporados. Os terminais dos adaptadores consistem nos terminais P7 e P5, que são integrados, respetivamente, em ambas as extremidades da sequência. Estes terminais P7 e P5 emparelham-se de forma complementar com os terminais no chip de sequenciação. Após ter passado pelos procedimentos acima, a amostra pode agora ser carregada no chip de sequenciação.
Geração de Clusters
Após a construção da biblioteca, é realizada a geração de clusters – um passo crítico no processo de sequenciação. 'Cluster' refere-se ao processo de amplificação de cada fragmento de DNA. O objetivo da amplificação é fortalecer o sinal. Durante o processo de sequenciação, é necessário excitar os grupos fluorescentes das bases e capturar os sinais fluorescentes correspondentes. Com apenas um grupo fluorescente, o seu sinal seria extremamente fraco. Assim, através do processo de enriquecimento, a sequência original única é amplificada em um cluster, permitindo a magnificação do sinal. Um único sinal fluorescente é fraco e difícil de distinguir em termos de cor, no entanto, quando reunidos em um cluster, a intensidade do sinal aumenta significativamente, tornando as cores da fluorescência mais fáceis de discernir.
O processo de geração de clusters ocorre num chip de flowcell. A flowcell é um conduto para absorver fragmentos de DNA em movimento e serve como o recipiente principal para reações de sequenciação, com todos os processos de sequenciação a ocorrerem aqui. Quando a biblioteca está preparada, o DNA pode aderir aleatoriamente às faixas da superfície da flowcell.
Célula de fluxo
fluxo de sequenciação illumina (Fonte da Imagem illumina)
Dentro de uma dada célula de fluxo, existem oito canais individuais, aqui referidos como oito 'faixas'. Cada faixa contém duas superfícies quimicamente modificadas—tanto a superior como a inferior—abundantemente semeadas com primers, especificamente os primers P7 e P5, que se emparelham precisamente com os adaptadores na biblioteca. A razão para plantar DNA num chip para sequenciação surge devido ao movimento constante de fluido que ocorre durante o processo de sequenciação. Qualquer DNA que não consiga conectar-se ao adaptador está suscetível a descolar-se devido ao fluxo do fluido.
Cada superfície é dividida em três 'faixas', com cada faixa contendo 16 'azulejos', que se referem a pequenas regiões. Assim, uma única pista contém 48 azulejos (3 faixas multiplicadas por 16 azulejos), somando as duas superfícies a um total de 96 azulejos. Um chip de fluxo completo, portanto, abrange 768 azulejos (96 azulejos multiplicados por 8 pistas). À medida que o chip se torna repleto de adaptadores de sequenciamento, a capacidade de DNA aumenta, levando a um aumento correspondente no volume de dados de sequenciamento. Ao injetar amostras com adaptadores de primer anexados no chip de fluxo, a biblioteca é com sucesso implantada no chip.
PCR de ponte
Nesta etapa, procedemos à amplificação por PCR em ponte. Para começar, a biblioteca é implantada no flowcell. Durante este processo, aplica-se um método de PCR em ponte, que possui certas distinções em relação à PCR convencional. Nas reações de PCR em ponte, os primers de sentido direto e inverso estão ambos ancorados a um adaptador flexível ligado ao suporte de fase sólida (substrato sólido). Após a reação de PCR, todos os produtos de amplificação a partir dos templates são imobilizados em locais específicos no chip. Como as junções em ambas as extremidades da biblioteca complementam a sequência de junção no chip, ao injetar amostras no flowcell, ocorre a hibridação de complementaridade, ancorando a sequência da biblioteca ao chip.
dNTP e a polimerase são posteriormente adicionados. A síntese de uma nova sequência a partir do primer ao longo do molde, complementar à sequência original, é facilitada pela enzima. Após a adição de uma solução concentrada de hidróxido de sódio, a dupla hélice de DNA desenrola-se em duas cadeias simples. Enquanto uma cadeia combina com o adaptador, a outra não o faz e é eliminada à medida que o fluido passa. Solventes neutros e soluções neutralizadoras são posteriormente adicionados, fazendo com que o DNA de cadeia simples no prato sofra uma curvatura em uma extremidade e hibridização complementar com outro primer no chip.
Continuamos a adição da polimerase e dos dNTP, facilitando as reações de PCR e a síntese de uma nova cadeia. Todo este processo é repetido com a adição de uma solução alcalina e uma neutralizante para garantir a hibridação com um novo adaptador. O que era originalmente uma cadeia simples tornou-se agora de cadeia dupla devido à amplificação. Com várias rondas de amplificação, a quantidade de DNA segue um crescimento exponencial, com a cadeia singular original a tornar-se eventualmente um aglomerado de sequências idênticas, semelhante a um processo de clonagem. Este fenómeno é denominado Bridge PCR, onde um adaptador na extremidade do DNA hibrida com um adaptador no chip, formando uma 'ponte' curva. Uma única ronda de amplificação de PCR ocorre nesta 'ponte'.
Esquema mostrando o conceito de PCR em ponte e formação de clusters. (Sandeep Ameta 2013)
Sequenciação
Uma vez concluída a geração de clusters, a sequenciação pode começar, utilizando o Sequenciação Illumina princípio tecnológico de sequenciação concorrente por síntese. O sistema de reação é simultaneamente infundido com DNA polimerase, primers de adaptador e quatro tipos de dNTPs marcados fluorescentemente (semelhante à sequenciação de Sanger). O grupo 3'-OH destes dNTPs está quimicamente protegido, garantindo que apenas um dNTP possa ser incorporado de cada vez, assim, apenas uma base é adicionada durante cada etapa de sequenciação.
Após a adição de um dNTP à cadeia em síntese, os dNTPs livres não utilizados e a DNA polimerase são enxaguados. Em seguida, um tampão é adicionado para induzir a fluorescência, que é excitada por luz laser e registada utilizando um aparelho óptico. Finalmente, a análise computacional converte o sinal óptico em uma base de sequenciamento.
Após a gravação da fluorescência, um reagente químico é introduzido para apagar o sinal fluorescente e remover o grupo protetor do 3'-OH do dNTP, preparando para a próxima ronda de reações de sequenciação. Este processo melhora a qualidade da sequenciação, aumentando a produção de dados e garantindo precisão.
Após a conclusão de uma ronda de sequenciação, tanto o grupo fluorescente como o grupo bloqueador do terminus 3' são excisados. Este passo tem como objetivo eliminar estes grupos, permitindo assim a continuidade das reações sintéticas, uma característica única da tecnologia de bloqueio de terminadores reversíveis. Subsequentemente, novos dNTPs e enzimas de síntese são adicionados com o intuito de construir novos nucleotídeos. Após a exposição à luz estimulada, os sinais fluorescentes são capturados e analisados, identificando assim o segundo nucleótido. Este processo é repetido continuamente, resultando num número crescente de nucleotídeos a serem sequenciados e, consequentemente, aumentando o comprimento da sequência. A sequenciação continua até à terminação e os resultados da sequenciação de cadeia simples são posteriormente apresentados.
Sequenciação Illumina A tecnologia adota o sequenciamento em pares de extremidades, onde tanto as cadeias diretas como as inversas passam por um processo de sequenciamento. Primeiro, é realizada uma síntese, levando à criação de uma cadeia dupla - nomeadamente, a cadeia complementar da cadeia de sequenciamento original. A cadeia original é então excisada utilizando reagentes químicos, deixando apenas a cadeia complementar. Com base nesta configuração, o processo de sequenciamento prossegue. Da mesma forma, é utilizada uma metodologia de síntese e sequenciamento simultâneos, onde a síntese de nucleotídeos, a excitação do grupo fluorescente, a captura do sinal fluorescente e a excisão do grupo fluorescente mais o grupo bloqueador do terminus 3' ocorrem. Após este processo, a próxima ronda de sequenciamento por síntese é realizada. Este ciclo continua até que todas as tarefas de sequenciamento estejam concluídas.
Sequenciação por Síntese
Sequenciação Illumina por síntese (SBS) (Syahzuwan Hassan) et al.,. 2023)
Relativamente à natureza distinta de Sequenciação Illumina A tecnologia, adiciona de forma única apenas um dNTP de cada vez. Resolve efetivamente o desafio de medir os comprimentos de homopolímeros. Os seus principais erros de sequenciação originam-se de substituições de bases, com taxas de erro atuais que variam aproximadamente entre 1% a 1,5%. Para dar um exemplo, para a re-sequenciação do genoma humano, a série Hisq com uma profundidade de sequenciação de 30x a 50x exigiria entre 3 a 5 dias. Comparativamente, a série NovaSeq, recentemente introduzida, precisaria apenas de aproximadamente 40 horas.
Comparação do volume de sequenciação da Illumina
| Sequenciador | Saída Total de Dados por Sequenciamento | Número de Leituras (Mil milhões) | Comprimento da Leitura de Sequenciamento (pb) | Tempo de Sequenciamento |
| HiSeq 2500 | 720-800 Gb | 8.0 | PE 100 | 5 dias |
| HiSeq 4000 | 1.500 Gb | 10.0 | PE 150 | 3,5 dias |
| NovaSeq 5000 | 850-1.000 Gb | 2,8-3,3 | PE 150 | 1,7 dias |
| NovaSeq 6000 | 3.000 Gb | 10.0 | PE 150 | 1,7 dias |
De acordo com estimativas de volume de dados, um sequenciador NovaSeq6000 (S4) a funcionar a plena capacidade pode completar o sequenciamento de mais de 6400 indivíduos anualmente. Notavelmente, os dados divulgados pela Illumina são tipicamente conservadores. Na aplicação prática, temos constatado que a proporção de segmentos de leitura de alta qualidade (Q30) ultrapassa 90% do total de dados, significativamente superior aos 75% oficialmente anunciados. Portanto, o rendimento total de dados real também é superior ao esperado.
Reconhecimento de Base
Após a conclusão do sequenciamento, obtemos uma multitude de ficheiros de sinal de fluorescência, em vez de sequências IMEDIATAS de bases de adenina (A), timina (T), citosina (C) e guanina (G). Estes ficheiros têm de passar por processamento de imagem, transformando-os em ficheiros de pontos codificados por cores, que são então armazenados em formato bcl. O processo de extração destes ficheiros bcl para recuperar as bases é denominado de basecalling. Cada ficheiro de pontos documenta uma série de informações, incluindo o número da pista, o número do tile, as posições das coordenadas x e y dos pontos, e a intensidade da luz de cada ciclo de A, T, C e G. No entanto, os ficheiros bcl estão em formato binário, que não corresponde ao ficheiro de texto em formato fastq que necessitamos. Portanto, é necessário utilizar um software de conversão bcl2fastq para transformar os ficheiros bcl de forma adequada.
Cada imagem corresponde a uma foto capturada durante uma sequenciação. Podemos diferenciar facilmente entre vermelho, amarelo, verde e azul, com cada cor a representar um tipo diferente de base. A imagem da segunda sequenciação lê a segunda base, sempre a partir do mesmo local exato. Ler a partir da mesma posição durante cada sequenciação culmina na construção de uma sequência. Essencialmente, este processo envolve juntar imagens adjacentes e extrair grupos de bases do mesmo local, estabelecendo assim uma sequência.
A descrição acima sobre a determinação do tipo de base de acordo com a cor da imagem é apenas uma simplificação. A situação real é significativamente mais complexa. Entre as quatro bases, as purinas e as pirimidinas têm estruturas químicas semelhantes, e os comprimentos de onda dos quatro grupos de bases fluorescentes sobrepõem-se. Portanto, o tipo de base não pode ser imediatamente discernido apenas pela cor, especialmente em circunstâncias não agrupadas, onde os julgamentos são ainda mais desafiadores.
Na verdade, o sequenciador determina a identificação analisando a taxa de contribuição dos quatro materiais fluorescentes em quatro comprimentos de onda diferentes. Por exemplo, como a tabela mostra, as taxas de contribuição dos quatro materiais fluorescentes para os quatro comprimentos de onda são distintas, formando uma matriz de taxa de contribuição quaternária em quatro dimensões. Assim, ao identificar cada ponto de iluminação, é semelhante a resolver um conjunto de equações lineares quaternárias. A identificação desta base correspondente ao ponto iluminado é feita escolhendo a que tem a maior probabilidade. Este processo complexo pode ser executado automaticamente através do software incorporado do sequenciador. Em última análise, o arquivo de sequência fastq gerado é os dados de sequenciamento desejados.
Perguntas Frequentes sobre Sequenciação de Próxima Geração da Illumina
Q: Ao realizar experiências repetitivas, por que optar pela adição repetitiva de hidróxido de sódio e soluções neutras em vez de utilizar diretamente o princípio de operação de temperatura variável das máquinas de PCR?
A: A adição repetitiva de hidróxido de sódio e soluções neutras tem como objetivo remover e recuperar fragmentos de DNA, o que ajuda na preparação de amostras para sequenciação. Isto deve-se principalmente ao fato de que a tecnologia de sequenciação Illumina utiliza a técnica de "Bridge PCR" em vez da tradicional PCR em fase líquida. A Bridge PCR é uma operação crítica dentro do processo de sequenciação Illumina, envolvendo a fixação dos produtos de PCR na superfície do chip de sequenciação para formar "pontes" de DNA, que posteriormente passam por reações de sequenciação. A Bridge PCR requer uma quantidade substancial de fragmentos de DNA para serem ligados à superfície, ao contrário da amplificação de DNA em fase líquida. Consequentemente, a utilização direta do princípio da PCR em fase líquida das máquinas de PCR não consegue facilitar esta fixação dos fragmentos de DNA na superfície do chip.
Q: As sequências agrupadas são idênticas? E se mais de um fragmento de DNA se ligar antes da amplificação?
A: Tipicamente, numa sequência de clusters, cada fragmento de DNA partilha a mesma sequência. No entanto, durante o sequenciamento, podem ocorrer situações em que mais do que um fragmento de DNA se liga inicialmente, uma ocorrência referida como "sobreposição de clusters" ou "coalescência de clusters". A sobreposição de clusters pode surgir durante a criação da biblioteca de DNA ou processos de amplificação por PCR, onde alguns fragmentos de DNA se agrupam e são imobilizados na superfície do chip dentro do mesmo cluster de sequência.
A sobreposição de clusters pode potencialmente instigar problemas com dados de sequenciação, como:
Sinais sobrepostos: Durante a sequenciação, a presença de mais de um fragmento de DNA em um único cluster de sequência pode levar a sinais sobrepostos, o que pode interferir nos resultados da sequenciação.
Dados de baixa qualidade: Se houver uma abundância de fragmentos de ADN presentes dentro de um único cluster de sequências, isso pode diminuir a taxa de sequenciação efetiva para cada fragmento, prejudicando assim a qualidade dos dados.
Para minimizar a sobreposição de clusters, são frequentemente aplicadas medidas de controlo em relação à concentração e quantidade de fragmentos durante a criação da biblioteca de ADN e os processos de amplificação por PCR, garantindo que apenas um fragmento de ADN se liga dentro de cada cluster de sequência. Além disso, a plataforma de sequenciação Illumina recorre a uma série de algoritmos de processamento de imagem e análise de dados para eliminar ou corrigir sinais de interferência causados pela sobreposição de clusters, melhorando assim a qualidade e a precisão dos dados.
P: Dentro da sequenciação Illumina, todos os fragmentos de ADN dentro de um cluster produzem sinais fluorescentes idênticos? Durante a sequenciação, existe a possibilidade de uma fita ainda estar tingida de amarelo enquanto uma fita adjacente já terminou a coloração amarela e começou a mudar para azul?
A: Geralmente, todos os fragmentos de DNA dentro de um determinado cluster produzem sinais fluorescentes homogéneos numa corrida de sequenciação Illumina. Relativamente à velocidade deste processo, é importante notar que a sequenciação geralmente ocorre de forma simultânea ou a uma taxa muito semelhante entre as cadeias. Assim, situações em que uma cadeia de DNA fica atrasada na coloração enquanto outra cadeia avançou para uma base nucleotídica diferente são improváveis.
No entanto, não se trata de um cenário absoluto. Complicações práticas podem levar a erros de sequenciação ou sinais dispersos. Além disso, a fiabilidade da sequenciação pode degradar-se ao longo do tempo — não uniformidades de velocidade podem desenvolver-se, degradando ainda mais a qualidade da sequenciação a jusante dos fragmentos. Para contrariar tal problema, empregamos uma abordagem de sequenciação de extremidades pareadas (ou de dupla extremidade). Este método melhora a resolução da sequência, particularmente para sequências de leitura longa, garantindo uma compreensão mais subtil do processo.
Q: Por que é que o número de ciclos é definido em relação ao comprimento das leituras?
A: Durante o processo de sequenciação, as amostras de ADN são sujeitas a amplificação enzimática e reações de sequenciação subsequentes. Para atingir o comprimento de leitura necessário, devem ser realizados números apropriados de ciclos de amplificação e sequenciação para garantir que cobrimos um número adequado de pares de bases. Portanto, consideramos que o número de ciclos está intimamente ligado ao requisito de comprimento de leitura. Colocando de outra forma, se uma leitura de um comprimento específico é necessária, o sequenciador ajusta o número de ciclos para atender a este objetivo de comprimento de leitura. Assim, o número de ciclos é um parâmetro definido para cumprir o requisito de comprimento de leitura.
P: Por que é necessário utilizar sequenciação de extremidades pareadas?
A: Na sequenciação em pares, uma extremidade do fragmento de DNA é inicialmente sequenciada, seguida por uma sequenciação secundária da outra extremidade, resultando em dois conjuntos distintos de dados de sequenciação. Deve-se notar que, à medida que o processo de sequenciação avança, a qualidade da sequenciação tende a deteriorar-se. Por exemplo, na fase a jusante da sequenciação de extremidade única, a qualidade muitas vezes fica aquém da precisão desejada. A implementação da sequenciação em pares permite a sequenciação simultânea de ambas as extremidades de um fragmento de DNA, garantindo uma qualidade de sequenciação notavelmente superior na extremidade a montante. Isto, quando combinado com a montagem das duas saídas de sequenciação, melhora significativamente a qualidade geral da sequenciação, estendendo consequentemente o comprimento efetivo da leitura de sequenciação.