Illumina NGS: Princípios, Plataformas e Melhores Práticas para Projetos de Sequenciação Bem-Sucedidos

A tecnologia de sequenciação por síntese (SBS) da Illumina dominou o panorama da sequenciação de leituras curtas durante mais de uma década, impulsionando a maioria dos estudos genómicos publicados a cada ano. A combinação de alta precisão, capacidade de produção escalável e ecossistema maduro da plataforma torna-a a escolha padrão para a maioria das aplicações de NGS — desde painéis de amplicões direcionados e sequenciação de exoma completo até estudos de genoma completo em escala populacional.

No entanto, a execução de um projeto de sequenciação Illumina bem-sucedido requer mais do que conhecer o fluxo de trabalho básico. Selecionar a plataforma certa, preparar bibliotecas de alta qualidade, interpretar métricas de qualidade e evitar falhas comuns no fluxo de trabalho são todos críticos para alcançar resultados reprodutíveis e prontos para publicação. Uma única biblioteca mal preparada pode desperdiçar uma corrida de sequenciação inteira — e com os células de fluxo NovaSeq X a custarem dezenas de milhares de dólares por corrida, o impacto financeiro do fracasso é substancial.

Este artigo fornece um guia prático para NGS da Illumina, abordando a seleção da plataforma, as melhores práticas de preparação de bibliotecas, a interpretação da qualidade de sequenciamento e os fluxos de trabalho de análise de dados. É destinado a investigadores que já compreendem os princípios básicos e necessitam de orientações práticas para o planeamento e execução de experimentos. O foco ao longo do texto é em conteúdo prático e orientado para a tomada de decisões: qual plataforma escolher, como evitar as falhas mais comuns na preparação de bibliotecas, como ler um relatório de QC de sequenciamento e como planear um projeto do início ao fim.

Por que a Illumina NGS domina o panorama de sequenciação de leituras curtas

A tecnologia de sequenciação por síntese (SBS) da Illumina tem permanecido a plataforma dominante de leituras curtas através de inovação contínua. A química evoluiu de SBS padrão para o mais recente XLEAP-SBS, introduzido com a série NovaSeq X, que oferece tempos de execução mais rápidos, maior intensidade de sinal e redução no consumo de reagentes. Estas melhorias reduziram drasticamente o custo por genoma na última década, tornando viáveis economicamente projetos de sequenciação em escala populacional.

A família da plataforma Illumina abrange uma gama de 10.000 vezes em capacidade de processamento, cobrindo praticamente todas as escalas de projetos de sequenciação:

PlataformaSaída MáximaComprimento Máximo de LeituraTempo de Execução TípicoAplicações Ideais
iSeq 1001,2 Gb2 × 150 pb9–17,5 hrPequenos painéis, execuções de validação
MiniSeq7,5 Gb2 × 150 pb7–24 hSequenciação direcionada pequena
MiSeq15 Gb2 × 300 pb4–55 hAmplicões 16S/ITS, genomas pequenos, painéis de amplicões
NextSeq 2000330 Gb2 × 150 pb11–48 hRNA-seq, exomas, WGS médio
NovaSeq 60006 Tb2 × 250 pb13–44 hEstudos populacionais de WGS em grande escala
NovaSeq X / X Plus16 Tb2 × 150 pb12–48 horasWGS ultra-grande, >30× genomas humanos em grande escala

Para os investigadores que planeiam o seu primeiro projeto Illumina ou que procuram atualizar a sua plataforma, compreender onde cada sistema se encaixa é a primeira decisão crítica. Abrangente serviços de sequenciação de nova geração cobrir toda a gama de plataformas Illumina, tornando possível selecionar o instrumento certo para os requisitos específicos de throughput e comprimento de leitura de cada projeto.

Figura 1: Matriz da plataforma Illumina — rendimento versus comprimento de leitura para MiSeq, NextSeq, NovaSeq 6000 e NovaSeq X

Os Três Passos Fundamentais — Uma Visão Geral Rápida

Cada projeto de sequenciação da Illumina segue o mesmo fluxo de trabalho em três etapas:

  1. Preparação da bibliotecaO DNA ou RNA é fragmentado, reparado nas extremidades, adicionado de uma cauda A e ligado a adaptadores de sequenciação. A biblioteca resultante é amplificada, quantificada e verificada quanto à qualidade antes de ser carregada.
  2. Geração e sequenciação de clustersAs bibliotecas são carregadas numa célula de fluxo onde passam por amplificação em ponte para formar clusters clonais. O sequenciamento por síntese prossegue em ciclos, com cada ciclo a incorporar um nucleótido rotulado fluorescentemente e de terminação reversível. O instrumento captura imagens após cada ciclo, e o software de chamada de bases converte os sinais de fluorescência em leituras de sequência.
  3. Análise de dadosOs arquivos BCL brutos são convertidos para o formato FASTQ (análise primária), as leituras são alinhadas a um genoma de referência (análise secundária) e a interpretação biológica segue (análise terciária).

Figura 2: Fluxo de trabalho em três etapas do NGS — preparação da biblioteca, geração de clusters e sequenciação

Selecionando a Plataforma Illumina Adequada — Vazão, Comprimento de Leitura e Adequação à Aplicação

Escolher a plataforma errada é um dos erros mais comuns e dispendiosos no planeamento de projetos de NGS. A escolha certa depende da interação entre três parâmetros: a produção total de sequências necessária, o comprimento de leitura requerido e o orçamento.

Seleção de plataforma orientada por aplicaçõesUm grupo de investigação típico pode realizar projetos em múltiplas escalas. Compreender como cada plataforma se relaciona com os tipos de estudo comuns garante uma utilização eficiente dos recursos.

  • Sequenciação de amplicões 16S/ITSRequer 2 × 250 bp ou 2 × 300 bp de leituras para cobrir as regiões variáveis de comprimento total. MiSeq é a plataforma padrão, processando 96–384 amostras por corrida a baixo custo por amostra.
  • Sequenciação do exoma completo (WES): Requer ~10 Gb por amostra. Para 96 amostras, uma célula de fluxo NovaSeq 6000 S4 processa todo o lote numa única corrida. Para lotes menores de 12–24 amostras, o NextSeq 2000 é mais prático e evita pagar por capacidade de célula de fluxo não utilizada.
  • Sequenciação do genoma completo (WGS): Requer 30–60 Gb por amostra para uma cobertura de 30×. As plataformas apropriadas são a NovaSeq 6000 ou a NovaSeq X. A NovaSeq X com a química XLEAP-SBS reduziu significativamente o custo de sequenciação por genoma, tornando os estudos de WGS ultra-grandes mais acessíveis.
  • RNA-seq (mRNA)Requer 20–50 milhões de leituras por amostra para expressão génica padrão; 100+ milhões para análise a nível de isoforma. O NextSeq 2000 adequa-se bem a projetos padrão, enquanto as plataformas da classe NovaSeq suportam projetos de RNA-seq de célula única que requerem entre 500 milhões a 3 mil milhões de leituras por execução.
  • Painéis direcionados (pequenos)10–100 genes com 1–5 milhões de leituras por amostra. MiniSeq ou MiSeq são opções económicas, oferecendo um rápido tempo de resposta. Para painéis que excedem 500 amplicões, pode ser necessário o NextSeq para garantir uma profundidade de leitura suficiente por amplicão.

Estrutura de decisão práticaComece por calcular o número total de leituras necessárias (leituras por amostra × número de amostras). Em seguida, verifique o comprimento mínimo da leitura. Por fim, escolha a plataforma que oferece esse rendimento no menor tempo e ao menor custo por amostra. serviços de sequenciação NGS a equipa pode ajudar a alinhar os parâmetros do seu projeto com a configuração de plataforma ideal.

Figura 3: Árvore de decisão para seleção de plataforma — dos parâmetros do projeto ao sistema Illumina recomendado

Preparação da Biblioteca — O Passo Onde a Maioria dos Projetos Tem Sucesso ou Falha

A preparação da biblioteca é o passo mais variável no fluxo de trabalho de NGS e a fonte mais comum de falhas nos projetos. Um protocolo de preparação de biblioteca bem concebido, com rigorosos pontos de controlo de QC, é essencial para resultados consistentes.

Cinco pontos de controlo críticos de QC:

  1. Qualidade do ácido nucleico de entradaO DNA deve ter um OD260/280 de 1,8–2,0 e OD260/230 > 1,5. O RNA deve ter um RIN ≥ 7 para mRNA-seq e RIN ≥ 5 para total RNA-seq. A degradação do material de entrada é a causa mais comum de falha da biblioteca e não pode ser compensada aumentando a quantidade de entrada.
  2. Consistência de fragmentaçãoA fragmentação enzimática é mais reprodutível do que o corte mecânico para a maioria das aplicações. A distribuição do tamanho dos fragmentos alvo deve corresponder ao comprimento da leitura de sequenciação—para 2 × 150 bp, o tamanho do inserto deve centrar-se em torno de 300–500 bp.
  3. Eficiência de ligação do adaptadorA ligadura ineficiente produz bibliotecas com alto conteúdo de dímeros de adaptadores. Um traço do Bioanalyzer mostrando um pico proeminente entre 80–120 bp sem um inserto correspondente indica dímeros de adaptadores, que desperdiçam capacidade de sequenciação e reduzem a qualidade dos dados.
  4. Viés de amplificação por PCRLimite os ciclos de PCR a 6–10 para bibliotecas de ADN e 12–15 para bibliotecas de ARN. A amplificação excessiva aumenta as taxas de duplicação sem melhorar a complexidade da biblioteca. Para amostras de baixo input, considere métodos de preparação de bibliotecas sem PCR.
  5. Quantificação final da bibliotecaA quantificação baseada em qPCR é mais precisa do que o Qubit ou o Bioanalyzer para determinar a concentração de carregamento. Uma discrepância de 2 a 3 vezes entre os métodos é comum, e confiar na medição errada é uma das principais causas de baixa densidade de clusters.

Falhas comuns em bibliotecas e as suas soluções:

  • Baixa densidade de clustersA concentração da biblioteca foi subestimada. Valide a quantificação com qPCR. Para células de fluxo padronizadas (NovaSeq), a faixa de concentração de carga ideal é estreita—uma variação de 10–20% pode produzir resultados insatisfatórios.
  • Sobre-agregaçãoA concentração da biblioteca foi sobrestimada. Requantifique e reúna a uma concentração mais baixa. O excesso de agrupamento produz grupos sobrepostos que não podem ser resolvidos, reduzindo o número de leituras utilizáveis.
  • Contaminação por dímeros de adaptadores nas leiturasA limpeza pós-ligação foi insuficiente. Aumente a proporção de esferas SPRI ou adicione um passo de seleção de tamanho baseado em gel. Para casos teimosos, utilize uma limpeza SPRI de dois lados. Um traço do Bioanalyzer com um pico dominante abaixo da faixa de tamanho esperada da biblioteca confirma a contaminação por dímeros de adaptadores.
  • Taxa de duplicação elevada (>30%)DNA de entrada insuficiente ou demasiados ciclos de PCR. Aumente o material de entrada se disponível; reduza os ciclos de PCR; ou mude para um protocolo de biblioteca sem PCR para aplicações de WGS.
  • Mudança de índiceEm células de fluxo padronizadas, índices livres residuais podem anotar incorretamente clusters vizinhos. Utilize Índices Duais Únicos (UDI) em vez de índices únicos para eliminar a preocupação com a troca de índices. Para projetos multiplexados grandes com muitas amostras, o UDI é fortemente recomendado em relação a estratégias de índice único.

Estratégia de multiplexação e alocação de códigos de barrasUma decisão chave na preparação da biblioteca é quantas amostras multiplexar por corrida de sequenciação. O número de amostras por corrida é determinado pelos reads necessários por amostra e pela saída total da célula de fluxo. Para um NextSeq 2000 que gera 400 milhões de reads, multiplexar 96 amostras de exoma com 4 milhões de reads cada é simples. Para um MiSeq que gera 25 milhões de reads, multiplexar mais de 48 amostras para um projeto de amplicão 16S pode resultar em reads insuficientes por amostra para estimativas de diversidade fiáveis.

A qualidade dos índices é outro fator frequentemente negligenciado. Índices de baixa qualidade com alta similaridade entre as sequências de código de barras aumentam o risco de atribuições erradas. Utilizar conjuntos de índices validados pelo fabricante da preparação da biblioteca—com uma distância de Hamming mínima de 3 entre quaisquer dois índices—minimiza a interferência entre amostras na mesma corrida.

Para equipas que preferem subcontratar a preparação de bibliotecas, serviços de análise de dados genómicos incluir a biblioteca QC e preparação como parte de um fluxo de trabalho de sequenciação abrangente.

Figura 4: Fluxo de trabalho de QC na preparação de bibliotecas — cinco pontos críticos de qualidade desde o DNA de entrada até a quantificação final da biblioteca

Compreendendo o Ciclo de Sequenciação por Síntese (SBS) em Detalhe

Enquanto a introdução abordou o princípio básico do SBS, compreender a mecânica a nível de ciclo é útil para a resolução de problemas e interpretação de métricas de QC.

Cada ciclo SBS passa por quatro etapas: (1) incorporação — um nucleótido rotulado com fluorescência e terminado reversivelmente é adicionado pela polimerase; (2) imagem — o instrumento captura imagens da superfície da célula de fluxo em quatro comprimentos de onda para identificar qual base foi incorporada em cada cluster; (3) clivagem — o corante fluorescente e o grupo terminador são removidos; (4) lavagem — os reagentes não incorporados são eliminados antes do próximo ciclo.

O tempo necessário por ciclo varia consoante a plataforma. No NovaSeq 6000, cada ciclo demora aproximadamente 5 a 10 minutos, incluindo o tempo de imagem. No NovaSeq X com a química XLEAP-SBS, o tempo de ciclo é reduzido para 3 a 5 minutos devido à cinética enzimática mais rápida e a um sistema de imagem redesenhado que captura toda a superfície da célula de fluxo em menos exposições.

O principal modo de falha ao nível do ciclo é o "fases" e "pré-fases". A fase ocorre quando alguns modelos em um cluster falham em incorporar um nucleótido em um determinado ciclo, ficando para trás por uma base. A pré-fase ocorre quando alguns modelos incorporam duas bases em um único ciclo, avançando. Ambos os efeitos reduzem a sincronia do cluster e causam a degradação do sinal ao longo dos ciclos sucessivos. Esta é a razão fundamental pela qual as pontuações de qualidade diminuem em direção ao final de uma leitura—não é uma falha do instrumento, mas uma consequência natural da sincronia imperfeita em um processo químico de múltiplos ciclos.

As taxas de fase são tipicamente expressas como uma percentagem por ciclo. Uma taxa de fase de 0,1% significa que, após 100 ciclos, 10% dos modelos em cada cluster estão uma base atrás da maioria. No ciclo 150, isso aumenta para 15%. O efeito cumulativo determina o limite prático de comprimento de leitura para cada plataforma. A especificação de fase mais alta da Illumina é tipicamente <0,5% por ciclo para a química SBS padrão e inferior para XLEAP-SBS.

As plataformas Illumina gerem o phasing através de algoritmos proprietários que estimam e corrigem a percentagem de moléculas que estão à frente ou atrás. No entanto, à medida que o número de ciclos aumenta para além de 150–300 ciclos (dependendo da plataforma), o efeito acumulado reduz tanto os Q-scores como o comprimento útil da leitura. É por isso que o NovaSeq X com XLEAP-SBS, que apresenta taxas de phasing reduzidas devido a cinéticas mais rápidas e lavagem melhorada, pode manter Q-scores mais elevados em leituras mais longas em comparação com a química SBS padrão.

Compreensão da Qualidade de Sequenciamento — Q-Scores, Perfis de Erro e QC de Dados

Pontuações de qualidade (Q-scores) fornecer a métrica principal para avaliar o desempenho da corrida de sequenciação da Illumina. O escore de qualidade Phred (Q) está relacionado logaritmicamente à probabilidade de uma chamada de base incorreta: Q30 corresponde a uma probabilidade de erro de 1/1000 (99,9% de precisão), enquanto Q20 corresponde a 1/100 (99% de precisão). O escore é calculado como Q = -10 log₁₀(P), onde P é a probabilidade de uma chamada de base incorreta.

Para uma corrida típica da Illumina, os seguintes parâmetros indicam um bom desempenho:

  • >85% das bases com Q30 ou superior para corridas de 2 × 150 pb
  • >75% das bases em Q30 para corridas de 2 × 250 bp ou mais longas
  • Taxa de erro (desvio de alinhamento PhiX) < 1%

Interpretação de um relatório de QC de sequenciaçãoO visualizador de análise padrão da Illumina fornece várias métricas-chave que devem ser analisadas após cada corrida:

  • Mapa de calor de qualidade por ciclo: Mostra a distribuição do Q-score em todos os ciclos. Um declínio gradual do início ao fim é normal; uma queda acentuada no meio da corrida pode indicar um problema com o reagente ou a fluidos.
  • Composição da base por cicloPara bibliotecas equilibradas, as curvas A e T devem sobrepor-se, assim como as curvas G e C. A divergência indica um viés na composição da biblioteca, particularmente em painéis de amplicon ou enriquecimento.
  • Distribuição de conteúdo GCUm pico unimodal que corresponde ao conteúdo de GC esperado do genoma-alvo indica uma complexidade de biblioteca normal. Múltiplos picos ou uma distribuição ampla e plana sugerem contaminação ou viés de PCR.
  • Taxa de duplicaçãoPara bibliotecas de WGS, as taxas de duplicação esperadas são de 5–15%. Taxas mais elevadas indicam baixo DNA de entrada, PCR excessivo ou complexidade insuficiente da biblioteca.

Fatores que afetam as pontuações de qualidadeVários parâmetros durante a corrida de sequenciação influenciam a distribuição final do Q-score. Compreender estes fatores ajuda tanto no planeamento de experiências como na resolução de problemas em corridas de baixa qualidade.

  • Posição de leituraA qualidade diminui no final da leitura à medida que a degradação do sinal fluorescente se acumula e os efeitos de fase se tornam mais pronunciados. Os últimos 5–10 ciclos de uma leitura de 150 bp normalmente mostram Q-scores mais baixos do que os primeiros 50 ciclos. Isso é normal e esperado— a taxa de declínio é um diagnóstico útil.
  • Composição de sequênciaRegiões ricas em GC e tratos homopoliméricos tendem a ter qualidade inferior devido à redução da diversidade de nucleotídeos durante a imagem. Adicionar controlo PhiX (5–20% da massa total da biblioteca) a bibliotecas de baixa diversidade fornece uma referência de sinal equilibrada que melhora significativamente os scores de qualidade ao longo de toda a corrida.
  • Densidade de clusterTanto a sub-clustering como o over-clustering reduzem a qualidade. A faixa de densidade ideal varia conforme a plataforma—para células de fluxo NovaSeq 6000 S4, 250–350 K clusters/mm² é o típico. Para o NextSeq 2000, 150–250 K clusters/mm² é o ideal. Desvios superiores a 20% da faixa ótima normalmente produzem uma queda mensurável nas porcentagens de Q30.
  • Diversidade da sequência de índicesSequências com baixo índice de diversidade (por exemplo, todas A ou todas T) podem causar falhas de registo durante os primeiros ciclos de sequenciação da leitura do índice. Utilizar um conjunto de índices pré-desenhado e validado do fabricante do kit de preparação da biblioteca evita completamente este problema.
  • Qualidade e armazenamento de reagentesReagentes de sequenciação expirados ou armazenados de forma inadequada são uma causa oculta comum de degradação da qualidade. A química SBS é sensível a ciclos de congelamento-descongelamento e flutuações de temperatura. Seguir as diretrizes de armazenamento e manuseio do fabricante — e registar os números dos lotes dos reagentes e as datas de validade — é um passo simples, mas frequentemente negligenciado.

Rever o relatório de QC de sequenciamento antes de prosseguir para a análise de dados é essencial. As seções principais incluem o mapa de calor de qualidade por ciclo, a composição de bases por ciclo, a distribuição do conteúdo de GC e a taxa de duplicação. Se algum métrico estiver fora dos intervalos aceitáveis, a corrida deve ser sinalizada e a causa raiz investigada antes que os dados sejam utilizados para a análise subsequente.

Figura 5: Mapa de calor típico do Q-score da Illumina mostrando a distribuição de qualidade por ciclo ao longo de uma corrida de 2 × 150 bp.

NovaSeq X e Química XLEAP-SBS — O que Mudou e Porquê É Importante

A introdução em 2023 da série NovaSeq X com a química XLEAP-SBS representa a atualização de química da Illumina mais significativa na última década. A XLEAP-SBS não é uma revisão menor - é uma química de sequenciação redesenhada com melhorias mensuráveis em velocidade, precisão e custo. O NovaSeq X Plus, operando a plena capacidade, pode gerar até 16 Tb de dados por corrida, equivalente a sequenciar mais de 500 genomas humanos a 30× de cobertura em uma única corrida de 48 horas.

Principais melhorias em relação ao SBS padrão:

  • Cinetica enzimática mais rápidaAs enzimas XLEAP-SBS incorporam nucleótidos mais rapidamente, reduzindo os tempos de corrida de 2 × 150 bp de ~40 horas (NovaSeq 6000) para ~24 horas (NovaSeq X).
  • Intensidade de sinal melhoradaUm maior rácio sinal-ruído reduz as taxas de erro, particularmente nos ciclos finais de leituras longas. Dados publicados pela Illumina mostram uma redução de 30-40% nas taxas de erro em comparação com o SBS padrão no NovaSeq 6000.
  • Consumo reduzido de reagentesA nova química utiliza menos reagente por base, reduzindo significativamente o custo por Gb em comparação com a química SBS padrão.
  • Maior rendimento por execuçãoAs células de fluxo 25B e 100B suportam escalas anteriormente impossíveis—uma única corrida do NovaSeq X Plus pode produzir 16 Tb de dados, equivalente a ~500 genomas humanos a 30× de cobertura.

Implicações práticas para investigadoresO NovaSeq X não substitui todas as plataformas anteriores da Illumina. Para projetos de pequena escala (menos de 50 amostras), o MiSeq e o NextSeq continuam a ser mais práticos devido aos seus custos mínimos de execução mais baixos e tempos de resposta mais rápidos. O NovaSeq X é transformador para projetos que requerem sequenciação em grande escala e com custo-eficiência — estudos populacionais, análises de coorte longitudinais e projetos de atlas de células únicas.

Figura 6: XLEAP-SBS versus química SBS padrão — principais melhorias em velocidade, intensidade do sinal e consumo de reagentes

Análise de Dados NGS — Do BCL ao Insight Biológico

O pipeline de análise de dados para sequenciação Illumina segue uma estrutura padrão de três camadas:

Análise primária (no instrumento)O instrumento de sequenciação realiza a chamada de bases em tempo real, convertendo imagens de fluorescência em ficheiros BCL (Binary Base Call), e depois em formato FASTQ. Este passo é totalmente automatizado e normalmente não requer intervenção do utilizador. As plataformas modernas fornecem métricas de qualidade em tempo real acessíveis durante a corrida.

Análise secundária (gerida pelo utilizador)Os arquivos FASTQ são processados através de alinhamento (STAR para RNA, BWA-MEM para DNA, HISAT2 para transcriptoma) e chamada de variantes (GATK, FreeBayes, Strelka2). Esta etapa requer 32–64 GB de RAM para WGS humano e armazenamento substancial—um único genoma humano 30× gera cerca de 100–200 GB de dados FASTQ e cerca de 50–100 GB de arquivos BAM alinhados.

Análise terciária (interpretação biológica)As variantes anotadas são filtradas, priorizadas e interpretadas no contexto biológico do estudo. As ferramentas comuns de análise terciária incluem ANNOVAR, SnpEff, VEP para anotação, e uma variedade de pacotes de análise de vias e enriquecimento.

Considerações críticas para a análise de dados:

  • Versão do genoma de referênciaGRCh38 (com correções) continua a ser o padrão de referência humana. A referência T2T-CHR13 oferece uma representação mais completa, mas ainda não é universalmente adotada. Os resultados do pipeline podem diferir substancialmente entre as versões de referência.
  • Planeamento de armazenamentoUm projeto típico de WGS requer 3–5× o armazenamento bruto em FASTQ para arquivos intermédios. Planeie entre 600 GB e 1 TB por genoma humano de 30×, incluindo FASTQ, BAM, VCF e arquivos temporários de pipeline.
  • Infraestrutura de computaçãoA análise baseada na nuvem (AWS, Google Cloud ou plataformas dedicadas de bioinformática) é cada vez mais preferida em relação a servidores locais para projetos grandes, eliminando a necessidade de investimento em hardware de computação. O principal compromisso é o tempo de transferência de dados—carregar 10 TB de arquivos FASTQ pode levar de 2 a 5 dias, dependendo da velocidade da conexão. Abordagens híbridas (armazenamento local + computação em nuvem) são comuns para projetos de grande escala.
  • Reproduzibilidade de pipelineUtilizar pipelines em contêineres (Docker, Singularity) ou gestores de fluxo de trabalho (Nextflow, Snakemake, Cromwell) garante que a mesma análise seja aplicada de forma consistente a todas as amostras de um projeto. Isto é essencial para manter a comparabilidade dos dados, particularmente em estudos de múltiplos lotes ou colaborativos.

Para equipas de investigação sem capacidade de bioinformática interna, serviços de análise de dados genómicos fornecer acesso a pipelines estabelecidos que cobrem alinhamento, chamada de variantes e interpretação biológica.

Figura 7: Pipeline de análise de dados NGS em três camadas — de BCL a FASTQ a BAM alinhado a interpretação biológica

Planeamento de um Projeto de Sequenciação Illumina Bem-Sucedido — Um Quadro Passo a Passo

Para além dos detalhes técnicos de cada etapa do fluxo de trabalho, os projetos bem-sucedidos da Illumina partilham uma estrutura comum de planeamento. Seguir esta estrutura minimiza o risco de revisões ou repetições dispendiosas durante o projeto.

  1. Defina a questão biológica e determine o tipo de ensaio ideal. É um estudo de descoberta (WGS, RNA-seq), um seguimento direcionado (WES, painel direcionado) ou uma aplicação de rastreio (painel de amplicão)? O tipo de ensaio determina todos os parâmetros subsequentes.
  2. Calcular a profundidade de sequenciação necessária. Para WGS humano, 30× é suficiente para a maioria das aplicações de linhagem germinativa. A deteção de variantes raras pode exigir 60×. A expressão génica em RNA-seq requer 20–50 milhões de leituras por amostra; a análise a nível de isoforma requer mais de 100 milhões. Os painéis direcionados necessitam de uma cobertura de 500–1.000× por amplicão para uma chamada de variantes fiável.
  3. Selecione a plataforma e a célula de fluxo. Igualar o total de requisitos de leitura (leituras por amostra × número de amostras + 10–20% de sobre-sequenciamento) às plataformas disponíveis. A plataforma selecionada deve fornecer o rendimento necessário sem capacidade não utilizada. Um run do MiSeq que gera 15 Gb é apropriado para estudos de pequenos amplicões, mas ineficiente para um grande projeto de exoma; uma célula de fluxo NovaSeq X com saída em terabases é excessiva para um pequeno estudo piloto.
  4. Bibliotecas de design com pontos de controlo de QC. Plano para traços do Bioanalyzer após a fragmentação e após a biblioteca final, quantificação por qPCR e um ensaio de titulação em pequena escala para novos tipos de bibliotecas. Cada ponto de verificação deve ter um critério de aprovação/reprovação pré-definido.
  5. Inclua controlos experimentais. Uma amostra de controlo positivo com variantes conhecidas valida o fluxo de trabalho desde a preparação da biblioteca até à chamada de variantes. Um controlo negativo (sem template) identifica contaminação. A adição de PhiX (tipicamente 1% para WGS, 5–20% para bibliotecas de baixa diversidade como amplicões) fornece um padrão de calibração para a pontuação de qualidade.
  6. Planeie a análise de dados antes de iniciar o sequenciamento. A seleção do pipeline, a versão do genoma de referência, os recursos computacionais e a capacidade de armazenamento devem estar todos prontos antes de o primeiro sequenciamento ser concluído. O sequenciamento gera dados mais rapidamente do que a maioria dos investigadores espera—um NovaSeq X produzindo 16 Tb em 48 horas requer uma capacidade de processamento subsequente igualmente rápida.

Falhas Comuns no Fluxo de Trabalho e Como Evitá-las

Modo de FalhaCausa RaizPrevenção
Baixa densidade de clustersConcentração da biblioteca subestimada; quantificação por qPCR imprecisa.Use qPCR para a quantificação final; realize um teste de carga de titulação para novos tipos de bibliotecas; valide cruzadamente com Qubit.
Sobre-agregaçãoConcentração da biblioteca superestimada; carga do fluxo celular padronizada demasiado altaValide com dois métodos ortogonais; dilua de forma conservadora; comece no ponto médio da faixa de carga recomendada.
>30% taxa de duplicaçãoEntrada de DNA insuficiente; demasiados ciclos de PCR; baixa complexidade da biblioteca.Utilize ≥100 ng de DNA de entrada sempre que possível; limite a ≤8 ciclos de PCR; considere a preparação de biblioteca sem PCR para WGS.
Mudança de índiceÍndices de adaptadores livres de resíduos em células de fluxo padronizadasUtilize índices duais únicos (UDI) em vez de índices únicos; o UDI elimina completamente o risco de saltos de índice.
Baixo Q30 nos ciclos finaisO comprimento da leitura excede o intervalo de química eficaz; acumulação de fase.Utilize o comprimento máximo de leitura recomendado pela plataforma; realize um teste piloto antes da produção em larga escala.
Contaminação por adaptadores nas leiturasLimpeza incompleta após a ligação do adaptador; fragmentos de inserção curtosOtimize a proporção de esferas SPRI; adicione seleção de tamanho baseada em gel para tipos de amostras problemáticas.
Taxa de discrepância PhiX >2%Degradação de reagentes; defeitos na célula de fluxo; desvio na calibração da chamada de bases.Registe os números de lote dos reagentes e as datas de validade; verifique a célula de fluxo; recalibre se o problema persistir.

Cada modo de falha tem uma causa raiz específica e uma ação preventiva clara. Identificar problemas precocemente através de execuções piloto em pequena escala—testando concentrações de carga em 3-4 diluições antes da produção em grande escala—previne as falhas de sequenciamento mais dispendiosas.

Como a CD Genomics Apoia Projetos de NGS da Illumina

A CD Genomics oferece serviços de sequenciação Illumina de ponta a ponta, cobrindo todo o pipeline do projeto, desde o design experimental até a entrega de dados.

Disponibilidade da plataformaO nosso laboratório está equipado com os sistemas NovaSeq X Plus, NovaSeq 6000, NextSeq 2000 e MiSeq, cobrindo toda a gama de rendimento desde pequenos painéis direcionados até WGS em escala populacional. Cada plataforma é mantida sob rigorosos protocolos de QC para garantir uma qualidade de dados consistente. A nossa escolha de plataforma é guiada pelos parâmetros do seu projeto—não pelo que temos disponível, pois temos todos os sistemas Illumina em operação ativa.

Preparação de biblioteca abrangenteOferecemos protocolos de preparação de bibliotecas standard, de baixo input, sem PCR e de ultra-baixo input, otimizados para diferentes tipos de amostras — incluindo sangue, tecido, FFPE, cfDNA e células únicas. Controlo de qualidade em todas as etapas.

Análise e interpretação de dadosOs entregáveis padrão incluem arquivos FASTQ com relatórios de QC e análise secundária opcional (pipeline BWA/GATK, quantificação de RNA-seq) e análise terciária (anotação de variantes, enriquecimento funcional). Para projetos maiores, podemos fornecer pipelines de análise baseados na nuvem que se adaptam ao volume dos seus dados.

Consulta de projetoA nossa equipa ajuda a alinhar os parâmetros do seu projeto com a plataforma ideal, configuração da célula de fluxo e estratégia de sequenciação para maximizar a qualidade dos dados enquanto minimiza os custos. Uma consulta típica abrange: saída de dados esperada, comprimento de leitura e profundidade de cobertura ótimos, configuração do run (simples vs. pareada), estratégia de multiplexação e requisitos de análise de dados.

Para mais detalhes, explore o nosso serviços de NGS ou contacte a nossa equipa para uma consulta específica sobre o projeto.

Perguntas Frequentes

Qual é a diferença entre a química SBS e XLEAP-SBS?
XLEAP-SBS é uma química de sequenciação redesenhada introduzida com o NovaSeq X. Oferece tempos de execução mais rápidos, maior intensidade de sinal e menor consumo de reagentes em comparação com a química SBS padrão utilizada em plataformas Illumina anteriores.

Como escolho entre MiSeq, NextSeq e NovaSeq para o meu projeto?
Comece por calcular a sua necessidade total de leituras (leituras por amostra × número de amostras). O MiSeq é adequado para pequenos painéis e projetos de amplicão. O NextSeq é ideal para projetos de média escala, como RNA-seq e sequenciação de exomas. As plataformas da NovaSeq são projetadas para estudos de WGS e populacionais em grande escala.

Qual a densidade de clusters que devo almejar numa célula de fluxo NovaSeq 6000 S4?
A faixa ideal é normalmente de 250 a 350 K clusters por mm². Valores fora desta faixa podem reduzir o rendimento ou a qualidade dos dados.

Por que é que o meu score Q30 de sequenciação é mais baixo do que o esperado?
As causas comuns incluem: biblioteca com baixa diversidade de nucleotídeos (adicionar mais PhiX), sobre- ou subagrupamento, DNA/RNA de entrada degradado, ou utilização de um comprimento de leitura que excede a faixa ótima da plataforma.

Como posso saber se a minha preparação de biblioteca foi bem-sucedida antes da sequenciação?
Uma biblioteca bem-sucedida deve apresentar um pico claro no traço do Bioanalyzer na faixa de tamanho esperada, contaminação mínima de dímeros de adaptadores (<5% da massa da biblioteca) e resultados consistentes de quantificação por qPCR.

Quais são as causas dos dímeros de adaptador e como posso removê-los?
Os dímeros de adaptadores formam-se quando as moléculas de adaptador se ligam entre si em vez de se ligarem ao DNA de inserção. Podem ser removidos aumentando a proporção de esferas SPRI durante a limpeza ou adicionando uma etapa de seleção de tamanho baseada em gel.

Qual é a diferença entre "index hopping" e "index cross-talk"?
O salto de índice ocorre quando primers de índice livre residual anotam incorretamente clusters vizinhos, fazendo com que leituras de uma amostra apareçam em outra. A interferência de índice resulta da interferência de sinal entre sequências de índice durante a imagem. UDI (índices duplos únicos) elimina efetivamente o salto de índice.

Que dados devo esperar de uma corrida de WGS 30× em humanos?
Aproximadamente 90–100 Gb de dados brutos por amostra, produzindo ~100–200 GB de arquivos FASTQ, ~50–100 GB de arquivos BAM alinhados e ~1–2 GB de arquivos gVCF.

Quanto espaço de armazenamento preciso para um projeto de NGS?
Planeie 3 a 5 vezes o tamanho bruto dos arquivos FASTQ para acomodar os ficheiros de análise intermédia. Para um projeto de WGS com 100 amostras, isso significa um armazenamento total de 30 a 50 TB.

Qual versão do genoma de referência devo usar para dados de sequenciação humana?
GRCh38 é o padrão atual para a maioria das aplicações. T2T-CHR13 é mais completo, mas ainda não é suportado por todas as ferramentas de análise. Faça corresponder a versão de referência aos requisitos da ferramenta e aos padrões da comunidade para a sua aplicação específica.

Referências

  1. Visão geral do fluxo de trabalho NGS da Illumina. Illumina, Inc.
  2. Pontuações de qualidade para sequenciação de nova geração. Nota Técnica da Illumina.
  3. Perfis de erro de sequenciação dos instrumentos de sequenciação Illumina. Genómica e Bioinformática NAR. 2021;3(1):lqab019.
  4. Química e imagem na série NovaSeq X. Base de Conhecimento Illumina.
  5. Otimização da densidade de clusters em instrumentos de sequenciação Illumina. GenoHub.

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo