O que é Sequenciação de Nova Geração (NGS)?
A sequenciação de próxima geração (NGS) não é uma única tecnologia. É um sistema de projeto que integra a preparação de amostras, a construção de bibliotecas, a seleção de plataformas, os parâmetros de sequenciação e a análise bioinformática. A escolha de cada componente determina se os dados finais podem responder à questão biológica original.
Este guia é destinado a investigadores que já compreendem o que é NGS e necessitam de uma estrutura orientada para a tomada de decisões para planear o seu próximo projeto de sequenciação. Aborda como selecionar a estratégia de sequenciação adequada com base nos objetivos da pesquisa, características das amostras, capacidades da plataforma e requisitos de qualidade dos dados. O foco está na lógica de design de projeto acionável, e não na repetição de definições básicas de NGS que já estão bem cobertas em recursos existentes.
Da Tecnologia de Sequenciamento ao Sistema de Design de Projetos
A NGS difere fundamentalmente da sequenciação Sanger em três aspetos que afetam cada decisão de design de projeto. Primeiro, a NGS lê milhões a bilhões de fragmentos de DNA em paralelo, produzindo volumes de dados que requerem infraestrutura computacional para processamento e interpretação. Segundo, a NGS gera leituras curtas ou longas que devem ser alinhadas a uma referência ou montadas de novo — o tipo de leitura determina quais questões biológicas podem ser abordadas. Terceiro, a qualidade dos dados da NGS depende da profundidade de sequenciação, uniformidade de cobertura, modelos de erro e qualidade da base de dados de referência, não apenas da precisão da plataforma.
Os investigadores que avaliam um projeto de NGS devem concentrar-se em cinco questões práticas antes de selecionar uma plataforma ou prestador de serviços:
- O meu tipo e qualidade de amostra podem suportar a análise pretendida?
- Devo escolher uma estratégia de leitura curta, leitura longa ou uma estratégia híbrida?
- Qual a profundidade de sequenciamento que preciso para obter resultados fiáveis?
- Quais métricas de QC devo acompanhar em cada fase?
- Que questões biológicas podem os dados resultantes responder, e quais questões permanecem fora do seu alcance?
Estas questões constituem a espinha dorsal do quadro de design do projeto descrito neste guia. Para os investigadores que estão a começar o seu primeiro projeto de NGS ou a avaliar uma nova aplicação, serviços de NGS abrangentes fornecer orientação especializada sobre design experimental e seleção de estratégias.
Figura 1. Pilha de design de projeto NGS — da amostra à interpretação biológica
Legenda: Pilha de design de projeto NGS em cinco camadas mostrando a progressão desde a questão biológica até a preparação da amostra, construção da biblioteca, seleção da plataforma, parâmetros de sequenciação e análise bioinformática até a interpretação biológica.
Da Questão de Investigação à Estratégia de NGS — Um Quadro de Decisão
O erro mais comum no planeamento de projetos de NGS é começar pela plataforma em vez da questão biológica. A estratégia de sequenciação correta depende do que a investigação pretende descobrir, medir ou comparar.
Classificação de objetivos de investigação por requisitos de NGS: O primeiro passo na concepção de um projeto de NGS é classificar o objetivo da pesquisa pelo tipo de informação biológica necessária. Cada tipo de objetivo tem requisitos específicos de parâmetros de sequenciação que determinam as escolhas de plataforma, profundidade e pipeline de análise.
| Objetivo da Pesquisa | Melhor Estratégia de NGS | Variável de Design Chave | Risco se Desalinhado |
|---|---|---|---|
| Deteção de SNP / pequenas InDels | WGS / WES / painel direcionado de leitura curta | Profundidade, qualidade de mapeamento, taxa de duplicação | Chamadas de baixa confiança |
| Descoberta de variantes estruturais | Leitura longa ou WGS híbrido | Comprimento da leitura, integridade da molécula | SVs perdidos |
| Montagem de genoma de novo | PacBio HiFi / ONT / híbrido | N50, cobertura, heterozigosidade | Montagem fragmentada |
| Expressão diferencial | RNA-seq | Integridade do RNA, tipo de biblioteca, réplicas biológicas | Interpretação biológica falsa |
| Perfilagem do microbioma | Metagenómica de amplicon ou metagenómica shotgun | Região de marcador, base de dados, esgotamento de anfitrião | Perfil taxonómico tendencioso |
Lógica de decisão: Se um genoma de referência de alta qualidade estiver disponível para a espécie-alvo, a sequenciação de leituras curtas é a abordagem mais rentável para a maioria das aplicações de deteção e quantificação de variantes. O compromisso é uma resolução limitada em regiões repetitivas. Se a pesquisa exigir a resolução de regiões repetitivas mais longas do que o comprimento da leitura, a deteção de grandes variantes estruturais (deleções, inserções, inversões que excedam 50 bp) ou a montagem de um genoma de novo, a sequenciação de leituras longas é necessária, apesar do seu custo por base mais elevado e dos requisitos de amostra mais rigorosos.
Para projetos que requerem tanto precisão como continuidade, estratégias híbridas que combinam plataformas de leituras curtas e longas oferecem o melhor equilíbrio. Uma montagem de genoma híbrida típica utiliza leituras longas PacBio HiFi ou Nanopore para a construção de contigs e leituras curtas Illumina para polimento e correção de erros. O custo desta abordagem de dupla plataforma é mais elevado, mas a qualidade da montagem resultante justifica o investimento para projetos de alta prioridade.
Erros comuns a evitar:
- Perguntar "quantas gigabases" sem primeiro definir a questão biológica.
- Comparar preços de plataformas sem avaliar se os dados resultantes podem apoiar a conclusão pretendida.
- Tratar WGS, WES, RNA-seq e sequenciação de amplicons como tipos de projeto intercambiáveis.
Figura 2. Árvore de decisão da estratégia NGS para a questão de pesquisa
Legenda: Mapeamento de árvore de decisão de cinco objetivos de pesquisa comuns—detecção de SNP, descoberta de variantes estruturais, montagem de novo, expressão diferencial e perfilagem de microbioma—para as suas estratégias NGS ótimas com variáveis de design chave e riscos de desalinhamento.
Seleção de Plataforma — Como Avaliar a Adequação da Plataforma para o Seu Projeto
A seleção da plataforma não se trata de classificar tecnologias, mas de alinhar as suas características aos requisitos específicos de um projeto de investigação. O Estudo de Sequenciação de Nova Geração da ABRF demonstrou que diferentes plataformas produzem resultados mensuravelmente diferentes em consistência de cobertura, taxas de erro e desempenho na deteção de variantes. Estas diferenças significam que a escolha da plataforma afeta diretamente quais descobertas biológicas são passíveis de serem encontradas.
Considerações chave a nível de projeto: Para projetos onde a taxa de rendimento e a precisão por base são os principais requisitos—detecção de SNV, quantificação de RNA-seq, sequenciação de exoma e painéis direcionados—o sequenciamento de leituras curtas é a abordagem mais estabelecida. O serviços de NGS o portfólio inclui várias plataformas de leitura curta para corresponder à capacidade de produção à escala do projeto.
Para projetos que exigem a resolução de regiões genómicas mais longas do que o comprimento da leitura—montagem de novo, deteção de variantes estruturais e sequenciação de transcritos completos—plataformas de leitura longa são necessárias, apesar do custo por base mais elevado e de requisitos de amostra mais rigorosos. Um detalhado comparação das tecnologias PacBio e Oxford Nanopore está disponível para investigadores que avaliam opções de leitura longa.
Para projetos que necessitam tanto de precisão como de contiguidade—montagem genómica abrangente ou deteção completa de variantes—estratégias híbridas que combinam sequenciação de leituras curtas e longas oferecem o melhor equilíbrio. Esta abordagem de dupla plataforma requer um investimento total mais elevado, mas produz uma qualidade de dados que nenhuma das plataformas consegue alcançar sozinha.
Erros comuns na seleção de plataformas: Assumir que leituras mais longas são universalmente melhores, assumir que leituras curtas não podem contribuir para a análise de variantes estruturais e esperar que uma plataforma seja ótima para todos os tipos de projetos estão entre os erros mais frequentes no design de projetos de NGS.
Figura 3. Triângulo de compromissos da plataforma NGS — precisão, comprimento de leitura, rendimento e requisitos de entrada de amostra
Triângulo de compensação que ilustra a inter-relação entre precisão, comprimento de leitura, rendimento e requisitos de entrada de amostra em plataformas de NGS de leituras curtas, leituras longas e híbridas.
A Qualidade da Amostra É a Primeira Limitação em Qualquer Projeto de NGS
Nenhuma quantidade de profundidade de sequenciamento ou bioinformática sofisticada pode compensar a má qualidade da amostra. A avaliação da qualidade da amostra deve ser o primeiro passo no design do projeto, antes da seleção da plataforma ou da biblioteca.
Variáveis-chave para amostras de ADN: A quantidade de entrada (massa total e concentração), a distribuição do tamanho dos fragmentos, o nível de degradação (avaliado por eletroforese em gel ou TapeStation), as razões de pureza (A260/280, A260/230) e os contaminantes (fenol, etanol, sais, polissacarídeos, heme, ácido húmico) afetam todos a eficiência da construção da biblioteca e a qualidade dos dados de sequenciação. Uma amostra que passa no controle de qualidade de concentração, mas contém fenol residual, falhará na etapa de ligadura porque o fenol inibe a DNA ligase. Por esta razão, a avaliação de pureza espectrofotométrica combinada com a quantificação fluorométrica fornece uma imagem de qualidade mais confiável do que qualquer um dos métodos isoladamente.
Limiares de QC quantitativos para DNA: A260/280 deve ser 1,8-2,0 para DNA puro; valores fora deste intervalo indicam contaminação por proteínas ou fenol. A260/230 deve ser 2,0-2,2; valores mais baixos sugerem a presença de compostos orgânicos ou resíduos de carboidratos. Para DNA de alto peso molecular necessário para plataformas de leitura longa, o DNA genómico deve mostrar uma banda dominante acima de 20 kb em um gel ou traço do TapeStation, sem borrões significativos abaixo de 10 kb.
Variáveis-chave para amostras de RNA: Pontuação RIN (RIN ≥ 7 para mRNA-seq, RIN ≥ 5 para total RNA-seq), DV200 para amostras de RNA FFPE, nível de contaminação de rRNA e método de preservação do tecido. O RNA derivado de FFPE requer protocolos específicos de preparação de bibliotecas com etapas de reparo de danos, e o rendimento esperado é tipicamente inferior ao de tecido fresco-congelado.
Considerações adicionais para sequenciação de long-read: A extração de DNA de alto peso molecular é essencial. O manuseio cuidadoso durante a extração, ciclos de congelamento-descongelamento mínimos e a evitação de cisalhamento mecânico durante a pipetagem são críticos para preservar os longos fragmentos necessários para a preparação de bibliotecas PacBio e Nanopore.
Diagnóstico de problemas de qualidade comuns:
- Cobertura desigual: Bias de GC, viés de fragmentação ou baixa complexidade da biblioteca. Solução: reavaliar a qualidade da entrada, ajustar o método da biblioteca, controlar os ciclos de PCR.
- Taxa de mapeamento baixa: Contaminação, incompatibilidade do genoma de referência ou degradação da amostra. Solução: adicionar triagem de contaminação, verificar a adequação do referência.
- Alta taxa de duplicação: Baixo DNA de entrada, amplificação excessiva de PCR ou baixa complexidade da biblioteca. Solução: reduzir os ciclos de PCR, otimizar a complexidade da biblioteca, considerar protocolos sem PCR. Para tipos de amostras com material de entrada limitado, análise de dados genómicos pode ajudar a avaliar se a taxa de duplicação está dentro de limites aceitáveis para o método de deteção pretendido.
Figura 4. Portas de qualidade de amostra antes do NGS — Limiares de QC e avaliação de risco
Legenda: Portas de controlo de qualidade de amostras de ADN e ARN antes da NGS, mostrando limiares de QC quantitativos (A260/280, A260/230, RIN, DV200) e avaliação de risco para problemas de qualidade comuns, incluindo cobertura desigual, baixa taxa de mapeamento e alta taxa de duplicação.
A Preparação da Biblioteca Determina a Usabilidade dos Dados
A preparação da biblioteca é a ponte entre o ácido nucleico bruto e as moléculas prontas para sequenciação. As suas funções principais são converter DNA ou RNA em moléculas compatíveis com a plataforma, introduzir adaptadores e códigos de barras para ligação ao fluxo de células e identificação de amostras, controlar o tamanho dos inseridos e a complexidade da biblioteca, e preservar a informação da cadeia quando necessário.
Variáveis-chave que afetam a saída de sequenciação: A estratégia de fragmentação (mecânica vs. enzimática vs. tagmentação) afeta o viés de cobertura e a reprodutibilidade. A eficiência da ligação de adaptadores determina a proporção de fragmentos que podem ser sequenciados. O número de ciclos de PCR influencia diretamente a taxa de duplicação — cada ciclo adicional além de 10 adiciona aproximadamente 5-10% mais duplicados. A janela de seleção de tamanho controla a distribuição do tamanho dos inserts, o que afeta a densidade de clusters e as taxas de mapeamento. O método de quantificação da biblioteca (qPCR vs. Qubit vs. Bioanalyzer) deve ser escolhido cuidadosamente — o qPCR é o mais preciso para determinar a concentração pronta para sequenciamento.
Erros comuns na preparação de bibliotecas:
- Assumindo que uma alta concentração de biblioteca equivale a uma alta qualidade de biblioteca.
- Ignorando a contaminação do dímero do adaptador, que desperdiça leituras de sequenciação.
- Usar apenas a quantificação total de DNA (Qubit) em vez de também medir moléculas amplificáveis (qPCR)
- Amplificação excessiva de PCR em amostras de baixo input, causando altas taxas de duplicação.
Para uma discussão detalhada sobre a otimização da preparação de bibliotecas, consulte o Recurso para preparação de bibliotecas de NGSque abrange fragmentação, reparação de extremidades, ligação de adaptadores, amplificação, limpeza e controlo de qualidade em profundidade. Para projetos que envolvem tipos de amostras especializadas, como tecidos FFPE ou cfDNA, abordagens de sequenciação direcionada frequentemente requerem protocolos de biblioteca específicos otimizados para material degradado ou de baixo input.
Figura 5. Variáveis de preparação de biblioteca que afetam o output de sequenciação
Legenda: Variáveis chave na preparação da biblioteca que afetam a saída de sequenciação NGS—estratégia de fragmentação, eficiência de ligação de adaptadores, contagem de ciclos de PCR, janela de seleção de tamanho e método de quantificação—com erros comuns e o seu impacto na qualidade dos dados.
Comprimento, Profundidade e Cobertura — Três Conceitos Distintos
Estes três termos são frequentemente usados de forma intercambiável em discussões de projetos, mas descrevem parâmetros diferentes que afetam a qualidade dos dados e o custo do projeto de forma independente. A NGS pode ser aplicada a DNA ou RNA de praticamente qualquer fonte biológica — sangue, tecido, células, blocos FFPE, plasma (cfDNA), culturas microbianas, amostras ambientais e células únicas. A principal limitação é que a qualidade da amostra deve atender aos requisitos do método de preparação de biblioteca escolhido e da plataforma de sequenciação.
Comprimento de leitura o número de bases contíguas é determinado por leitura de sequenciamento. Isso afeta a precisão do alinhamento, a capacidade de abranger regiões repetitivas, a resolução de isoformas em RNA-seq e a continuidade da montagem. Leituras mais longas nem sempre são melhores — elas requerem tempos de execução mais longos e produzem menos leituras totais por célula de fluxo.
Profundidade de sequenciação (o ou profundidade de cobertura) é o número médio de vezes que cada base na região alvo é sequenciada. Isso determina a confiança nas chamadas de variantes — uma maior profundidade permite a deteção de variantes de menor frequência e proporciona um poder estatístico mais robusto para a análise de expressão diferencial.
Cobertura pode referir-se tanto à fração do genoma alvo que é coberta por pelo menos uma leitura (extensão da cobertura) como à distribuição da profundidade ao longo do genoma (uniformidade). As discussões do projeto devem especificar qual significado é pretendido.
| Métrico | O que Mede | Por Que É Importante | Interpretação Comum Errada |
|---|---|---|---|
| Comprimento de leitura | Comprimento das leituras de sequenciação | Alinhamento, montagem, repetição de abrangência | Mais longo significa sempre melhor. |
| Dados brutos | Saída total antes da filtragem | Executar escala | Dados utilizáveis iguais |
| Dados limpos | Leituras filtradas de alta qualidade | Entrada a jusante | Garante a qualidade do mapeamento |
| Profundidade | Média de leituras por locus | Confiança da variante | Igual em todas as regiões do genoma |
| Uniformidade de cobertura | Distribuição de profundidade | Confiabilidade entre regiões | Ignorado se a profundidade média parecer alta. |
Requisitos de profundidade específicos do projeto: A deteção de SNVs germinativos em WGS humano requer uma cobertura de 30× como referência padrão. A deteção de mutações somáticas em câncer requer 60-100× para identificar variantes de baixa frequência. A análise de expressão génica em RNA-seq requer 20-50 milhões de leituras por amostra. O perfilamento de amplicons 16S requer 10.000-50.000 leituras por amostra. Estes alvos devem ser utilizados como valores mínimos, com 10-20% de sobre-sequenciamento adicionados para contabilizar a variação de qualidade específica da amostra.
Interpretação específica do projeto: Para WGS, o foco deve estar na profundidade e uniformidade em todo o genoma. Uma execução de WGS a 30× em que algumas regiões estão cobertas a 5× e outras a 60× não é equivalente a uma execução em que todas as regiões estão cobertas a 25-35×. Métricas de uniformidade de cobertura, como o coeficiente de variação (CV) da profundidade entre bins ou a fração do genoma dentro de 0,2× e 2× da profundidade média, fornecem uma imagem de qualidade mais completa do que a profundidade média sozinha. Para WES e painéis direcionados, as métricas chave são a taxa de alvo, a cobertura do alvo e a uniformidade da captura — não a saída total de dados. Para RNA-seq, a quantidade de leituras mapeadas por amostra, a cobertura do corpo do gene e a orientação da biblioteca são mais informativas do que a contagem bruta de leituras. Para metagenómica, a proporção de leituras do hospedeiro, a recuperação da diversidade microbiana e os limiares de deteção de táxons raros determinam se a profundidade é adequada.
Figura 6. Comprimento da leitura vs. profundidade vs. cobertura — três métricas independentes no design de projetos de NGS
Legenda: Diagrama conceptual que distingue o comprimento de leitura, a profundidade de sequenciação e a cobertura como três métricas independentes de NGS, com uma tabela que clarifica definições, importância prática e interpretações comuns para cada métrica.
Métricas de Qualidade de Dados NGS — O que Procurar num Relatório de Sequenciação
Um relatório de QC abrangente deve incluir métricas em três níveis: qualidade a nível de sequenciamento, qualidade a nível de alinhamento e qualidade a nível de biblioteca. Os investigadores que avaliam um fornecedor de serviços de sequenciamento devem saber quais métricas são padrão e como interpretá-las.
QC de sequenciação: Percentagens de Q20/Q30, distribuição do conteúdo de GC, conteúdo de adaptadores, taxa de duplicação e distribuição do comprimento das leituras. Para uma corrida padrão da Illumina, >85% das bases devem estar acima de Q30 para corridas de 2 × 150 bp. O mapa de calor da qualidade por ciclo deve mostrar um declínio gradual de alta para qualidade moderada — uma queda acentuada em qualquer número de ciclo indica um problema específico da corrida que deve ser investigado antes de prosseguir com a análise de dados.
QC de Alinhamento: Taxa de mapeamento, percentagem de leituras emparelhadas corretamente, distribuição do tamanho do inserto, profundidade média de cobertura e uniformidade da cobertura. Taxas de mapeamento baixas (<80% para DNA humano) devem ser investigadas — as causas possíveis incluem contaminação (bacteriana, fúngica ou DNA humano do manuseio), incompatibilidade com o genoma de referência (espécie errada ou versão do genoma) ou degradação da amostra que produz fragmentos que não conseguem alinhar-se de forma única.
QC da Biblioteca: Concentração da biblioteca, molaridade, distribuição de tamanhos, conteúdo de dímeros de adaptadores e estimativa da complexidade da biblioteca. O conteúdo de dímeros de adaptadores acima de 5% da massa total da biblioteca desperdiça capacidade de sequenciação.
QC específico do projeto: Para WES ou painéis direcionados, a taxa de acerto e a cobertura do alvo a profundidades especificadas (por exemplo, % de bases alvo a 20×, 50×, 100×) são essenciais. Serviços de sequenciação do exoma completo tipicamente reportam estas métricas como entregas padrão. Para RNA-seq, a taxa de rRNA, a distribuição exónica/intrónica/intergénica e a cobertura do corpo do gene devem ser reportadas. Para metagenómica, o nível de contaminação do hospedeiro, a taxa de atribuição taxonómica e a versão da base de dados devem ser documentados. Para sequenciação de long-read, N50 das leituras, distribuição do comprimento das leituras, rendimento total e precisão bruta vs. corrigida são métricas chave.
Figura 7. Painel de QC de NGS — relatório de amostra mostrando métricas de qualidade chave
Legenda: Painel de QC de NGS abrangente mostrando três níveis de métricas de qualidade—QC de sequenciamento (Q30, conteúdo de GC, conteúdo de adaptadores), QC de alinhamento (taxa de mapeamento, tamanho do inserto, uniformidade de cobertura) e QC de biblioteca (concentração, conteúdo de dímeros)—com indicadores específicos do projeto para WES, RNA-seq, metagenómica e dados de leitura longa.
Análise de Bioinformática — O Valor do NGS Está na Pergunta, Não no Sequenciador
O instrumento de sequenciação produz dados brutos. A análise bioinformática transforma esses dados em percepções biológicas. A escolha do pipeline de análise deve ser determinada pela questão de investigação, e não por definições padrão ou fluxos de trabalho standard.
Componentes do pipeline de análise de núcleo: QC de dados brutos, aparo e filtragem, alinhamento ou montagem, quantificação ou chamada de variantes, anotação, análise estatística e interpretação biológica. Cada etapa tem variações específicas da plataforma e da aplicação que afetam os resultados.
Diferenças chave de análise por tipo de projeto:
| Projeto NGS | Saída de Bioinformática Fundamental | Dependência Chave | Pergunta BOFU |
|---|---|---|---|
| WGS | Lista de variantes, anotação, SV/CNV | Qualidade de referência, profundidade | Este design consegue detetar o tipo de variante do meu alvo? |
| RNA-seq | DEG, via, perfil de expressão | Qualidade do RNA, réplicas | O design é estatisticamente interpretável? |
| Metagenómica | Taxonomia, função, diversidade | Depleção de host de base de dados | Podem ser resolvidos táxons raros ou genes funcionais? |
| Montagem de leitura longa | Contigs, N50, BUSCO, anotação | DNA HMW, cobertura | A continuidade da montagem é suficiente para o objetivo da pesquisa? |
Erros comuns em bioinformática: Assumindo que o mesmo fluxo de trabalho funciona para todos os tipos de projetos, ignorando a qualidade e a versão do genoma de referência, negligenciando o impacto da versão da base de dados nos resultados da anotação, projetando experiências sem réplicas biológicas ou modelos estatísticos apropriados, e confundindo a visualização de dados com conclusões biológicas. Para projetos que requerem personalização. análise bioinformáticaDiscutir opções de pipeline com o prestador de serviços antes do início do sequenciamento garante que o formato de saída dos dados corresponda aos requisitos de análise.
Serviços de análise bioinformática podem fornecer pipelines adaptados a tipos de projetos específicos, garantindo que o processamento e a interpretação de dados estejam alinhados com os objetivos da pesquisa.
Figura 8. Fluxo de trabalho de bioinformática por tipo de projeto NGS
Legenda: Fluxos de trabalho de análise bioinformática para quatro tipos de projetos de NGS—WGS, RNA-seq, metagenómica e montagem de leituras longas—mostrando os componentes principais do pipeline, as dependências chave e a questão BOFU (Base de Uso Futuro) que deve ser respondida antes da seleção do pipeline.
Design de Aplicações NGS — WGS, WES, RNA-seq, Metagenómica e Mais
Sequenciação do Genoma Completo
A WGS é apropriada para a descoberta de variantes em todo o genoma, genómica populacional, montagem de novo e genómica comparativa. As principais variáveis de design incluem o tamanho do genoma, a taxa de heterozigose, o conteúdo de repetições, o tipo de variante requerido e a disponibilidade de um genoma de referência. A WGS de leitura curta a 30× é o padrão para a deteção de SNVs germinativos humanos. A WGS de leitura longa é preferida para montagem, deteção de variantes estruturais e regiões ricas em repetições. Estratégias híbridas que combinam ambos os tipos de leitura proporcionam o melhor equilíbrio para uma análise genómica abrangente.
Para um projeto de WGS humano, o entregável padrão inclui aproximadamente 90-100 Gb de dados brutos por amostra a 30×. O pipeline de bioinformática deve lidar com a chamada de variantes para SNVs, pequenas indels e variantes de número de cópias como mínimo, com a análise de variantes estruturais como uma extensão opcional. Serviços de sequenciação do genoma completo pode ser configurado para abordagens de leitura curta, leitura longa ou híbrida, dependendo dos objetivos da pesquisa.
Sequenciação do Exoma Completo / Sequenciação Direcionada
WES e painéis direcionados concentram-se em regiões genómicas específicas, reduzindo custos enquanto permitem uma maior profundidade nas regiões-alvo. As principais variáveis de design incluem o design da região de captura, as expectativas de taxa de captura, os requisitos de cobertura do alvo, a compatibilidade das sondas com a espécie-alvo e as regiões-alvo ricas em GC ou repetitivas. Os riscos incluem cobertura desigual nas regiões-alvo, viés de captura e a incapacidade de interpretar regiões não-alvo.
Para WES humano, um entregável típico inclui uma profundidade média de 100-200× nas regiões-alvo, com pelo menos 90% das bases-alvo cobertas a 20× ou mais. A taxa de mapeamento em alvo (percentagem de leituras que se mapeiam dentro ou perto do design de captura) deve exceder 60% para kits de captura de exoma padrão.
Sequenciação de RNA
RNA-seq mede a expressão génica, deteta splicing alternativo, identifica transcritos de fusão e descobre transcritos novos. As variáveis-chave incluem a integridade do RNA, a orientação da biblioteca (preservando a orientação da cadeia), a seleção de poli(A) versus a estratégia de depleção de rRNA, e o número de réplicas biológicas. Os riscos incluem a degradação do RNA que afeta a precisão da quantificação, efeitos de lote resultantes do processamento de amostras em momentos diferentes, e um design de réplicas insuficiente para poder estatístico.
Um projeto padrão de mRNA-seq requer 20-50 milhões de leituras por amostra para quantificação a nível de gene. Para análise a nível de isoforma, podem ser necessários mais de 100 milhões de leituras por amostra. Recomenda-se pelo menos três réplicas biológicas por condição para uma análise de expressão diferencial fiável. serviços de RNA-seq suportar ambos os tipos de bibliotecas selecionadas por poli(A) e empobrecidas em rRNA.
Sequenciação Metagenómica
A metagenómica perfila a estrutura da comunidade microbiana, o potencial funcional e a composição a nível de estirpe. As variáveis-chave incluem a proporção de DNA do hospedeiro, a biomassa microbiana, a escolha da base de dados e a profundidade de sequenciação. Os riscos incluem a contaminação do hospedeiro a sobrecarregar as leituras microbianas, profundidade insuficiente para a deteção de táxons raros e o viés de anotação dependente da base de dados que varia com o conjunto de referência utilizado.
Para metagenómica de shotgun, 50-100 milhões de leituras por amostra é típico para um perfil funcional abrangente. Para sequenciação de amplicons 16S, 10.000-50.000 leituras por amostra são suficientes para a análise da composição da comunidade. Estratégias de depleção de DNA do hospedeiro — incluindo lise diferencial e captura baseada em sondas — devem ser consideradas para amostras de microbioma de baixa biomassa de locais associados ao hospedeiro. Serviços de sequenciação de amplicões 16S/ITS fornecer protocolos padronizados para a caracterização da comunidade, enquanto serviços de metagenómica shotgun oferecer maior resolução para análise funcional e a nível de deformação.
Figura 9. Matriz de seleção de aplicações de NGS — correspondência entre objetivos de pesquisa e serviços de sequenciação
Matriz de seleção de aplicações para quatro abordagens principais de NGS—WGS, WES, RNA-seq e metagenómica—mostrando os casos de uso ótimos, variáveis de design, riscos e profundidade de leitura recomendada para cada tipo de aplicação.
Escolhendo entre Amplicon, Painel, Exoma, Genoma e Transcriptoma
A escolha entre estes cinco tipos de ensaios depende do âmbito da questão de pesquisa e do potencial de descoberta necessário.
| Opção | Melhor Para | Potencial de Descoberta | Complexidade de Dados | Limitação Principal |
|---|---|---|---|---|
| Amplicão | Regiões pequenas conhecidas, números de amostra elevados | Baixo | Baixo–Médio | Âmbito restrito |
| Painel de destino | Conjuntos de genes conhecidos | Médio | Médio | Dependente do design |
| WES | Variantes de codificação | Médio–Alto | Médio–Alto | Perde regiões não codificantes |
| WGS | Descoberta em todo o genoma | Alto | Alto | Maior carga de dados |
| RNA-seq | Expressão / transcriptoma | Alto para o nível de RNA | Alto | Sensível à qualidade do RNA |
Lógica de decisão do comprador: O alvo é conhecido ou desconhecido? É necessária a descoberta ou a confirmação é suficiente? É necessária uma cobertura genómica ampla ou uma região focada é adequada? A questão está ao nível do DNA ou do RNA? A qualidade da amostra e o orçamento suportam a complexidade da abordagem escolhida? Responder a estas perguntas antes de selecionar um tipo de ensaio evita mudanças dispendiosas a meio do projeto.
Figura 10. Escada de seleção de ensaios NGS — do amplicão ao genoma completo
Legenda: Escada de seleção de ensaios NGS de cinco níveis, desde amplicon (menor potencial de descoberta, escopo mais restrito) até WGS (maior potencial de descoberta, cobertura mais ampla), com lógica de decisão para escolher o ensaio apropriado com base no conhecimento do alvo e nos requisitos de pesquisa.
Causas Comuns de Falha em Projetos de NGS — e Como Preveni-las
Compreender os modos de falha antes de iniciar um projeto é a estratégia de prevenção mais eficaz. As falhas podem ocorrer em todas as fases.
| Problema Observado | Causa Possível | Prevenção a Nível de Design |
|---|---|---|
| Baixas leituras utilizáveis | Contaminação, dímeros de adaptador, baixa qualidade da biblioteca | QC e limpeza pré-sequenciação |
| Cobertura desigual | viés de GC, viés de captura, viés de fragmentação | Ajuste da estratégia de plataforma e biblioteca |
| Alta duplicação | DNA de baixo input, sobre-PCR | Monitorização da complexidade da biblioteca, protocolos sem PCR |
| Sinal biológico fraco | Design de replicação deficiente, efeitos de lote | Design estatístico antes da sequenciação |
| Anotação deficiente | Incompatibilidade de base de dados, referência desatualizada | Seleção de base de dados e controlo de versões |
Falhas a nível de amostra: Degradação, contaminação, entrada insuficiente ou método de extração inadequado — abordar através de um controlo de qualidade rigoroso antes da sequenciação.
Falhas a nível de biblioteca: Contaminação por dímeros de adaptadores, baixa eficiência de conversão, sobre-amplificação, fragmentação enviesada — abordar otimizando os protocolos da biblioteca e incluindo pontos de controlo de qualidade.
Falhas a nível de sequenciamento: Subcarregamento ou sobrecarregamento da célula de fluxo, bibliotecas de baixa diversidade causando falhas de calibração, desequilíbrio entre amostras multiplexadas, profundidade insuficiente — abordar através de cálculos cuidadosos de carregamento e planeamento de diversidade.
Falhas a nível de dados: Baixa taxa de mapeamento, seleção inadequada do genoma de referência, alta duplicação, efeitos de lote, incompatibilidade de base de dados — abordar incluindo controlos e planeando a análise antes do sequenciamento.
Falhas no design do projeto: A questão de pesquisa é demasiado ampla para a abordagem escolhida, plataforma ou tipo de ensaio errados, sem réplicas biológicas, expectativas downstream irrealistas — aborde isto utilizando o quadro deste guia antes de comprometer recursos.
Figura 11. Mapa de resolução de problemas de NGS — problema, causa e prevenção
Legenda: Mapa abrangente de resolução de problemas de NGS cobrindo cinco níveis de falha—amostra, biblioteca, sequenciação, dados e design do projeto—com problemas observados, causas possíveis e estratégias de prevenção a nível de design para cada categoria.
Como Preparar um Pedido de Projeto para um Prestador de Serviços de NGS
Uma consulta de projeto bem preparada acelera o processo de consulta e reduz o risco de expectativas desalinhadas. As seguintes informações devem ser preparadas antes de contactar um prestador de serviços de sequenciação.
Informação básica a fornecer: Espécies e tipo de amostra, DNA ou RNA, número da amostra, método de extração, concentração e quantidade total, dados de integridade (RIN, DV200 ou imagem de gel), objetivo da pesquisa e entregáveis esperados. Incluir esta informação na consulta inicial permite ao prestador de serviços avaliar a viabilidade e recomendar uma estratégia apropriada sem necessidade de esclarecimentos adicionais.
Informação sobre o design do projeto: Se um genoma de referência está disponível, se o estudo visa regiões conhecidas ou requer descoberta, se é necessário chamar variantes, perfilar expressão, montar ou anotar, se réplicas biológicas estão incluídas e informações sobre lotes.
Perguntas a fazer ao prestador de serviços: Qual é a estratégia de NGS recomendada e porquê? Quais métricas de QC serão reportadas em cada etapa? Quais são os entregáveis brutos, limpos e finais? Como são tratados os resultados anormais de QC? O pipeline de bioinformática pode ser personalizado para o projeto?
Colocando perguntas de forma construtiva: Em vez de "Pode garantir sucesso?", pergunte "Quais fatores de amostra ou de design afetam a qualidade dos dados neste tipo de projeto?" Em vez de "Quão rápido pode entregar?", pergunte "Quais são os principais pontos de controlo de QC no cronograma do projeto?"
Figura 12. Lista de verificação para inquérito de projeto NGS — informações a preparar e perguntas a fazer
Legenda: Lista de verificação para preparação de inquérito de projeto mostrando informações básicas (espécie, tipo de amostra, método de extração, concentração, dados de integridade), informações de design do projeto (genoma de referência, descoberta vs direcionado, réplicas) e perguntas construtivas a fazer a um prestador de serviços de sequenciação.
Lista de Verificação para Seleção de Estratégia NGS — Um Quadro de 10 Passos
- Defina a questão biológica.
- Identificar se o alvo é DNA, RNA, epigenético, microbiano ou de célula única.
- Confirmar a qualidade da amostra e a viabilidade da entrada
- Selecionar tipo de ensaio: amplicon / painel / WES / WGS / RNA-seq / metagenómica
- Selecionar plataforma de sequenciação: leitura curta / leitura longa / híbrida
- Defina comprimento de leitura, profundidade e expectativas de cobertura.
- Confirmar a estratégia de preparação da biblioteca
- Defina métricas de QC para acompanhar antes da sequenciação.
- Defina entregáveis de bioinformática.
- Prepare informações do projeto para consulta.
Seguir esta lista de verificação de forma sistemática minimiza o risco de correções dispendiosas a meio do projeto e garante que a estratégia de sequenciação está alinhada com os objetivos de pesquisa desde o início.
Figura 13. Lista de verificação da estratégia NGS para projetos de investigação — estrutura de design em 10 passos
Legenda: Estrutura de seleção de estratégia de NGS em 10 passos, desde a definição da questão biológica até à seleção do tipo de ensaio, plataforma de sequenciação, comprimento de leitura, profundidade, estratégia de biblioteca, métricas de QC, entregáveis de bioinformática e preparação de uma consulta de projeto.
Conclusão — O Valor do NGS Está na Correspondência Entre a Estratégia e a Questão
A sequenciação de próxima geração é um sistema de projeto com múltiplas variáveis. A plataforma, a biblioteca, a profundidade, a qualidade da amostra e o pipeline de análise contribuem todos para a capacidade final de interpretação dos dados. Para os investigadores que estão a avaliar opções de NGS, as perguntas mais importantes não são sobre o que é NGS, mas sobre qual estratégia se adequa melhor ao objetivo da pesquisa, se a amostra suporta a abordagem escolhida, quais métricas de dados precisam ser definidas antecipadamente e se os entregáveis de bioinformática podem responder à questão biológica original.
Para o planeamento de projetos de investigação, os investigadores podem preparar o tipo de amostra, o objetivo da investigação, a saída de análise esperada e as informações de controlo de qualidade disponíveis antes de discutir uma estratégia de NGS com o seu prestador de serviços escolhido.
Os projetos de NGS mais bem-sucedidos são aqueles em que o desenho experimental é guiado pela questão biológica, a qualidade da amostra é avaliada antes do início do sequenciamento, a plataforma e a profundidade são selecionadas com base no tipo de variante alvo e nas características do genoma, e a análise bioinformática é planeada como uma parte integral do projeto, em vez de ser uma reflexão tardia. Ao aplicar o quadro descrito neste guia, os investigadores podem reduzir significativamente o risco de correções dispendiosas durante o projeto e garantir que o seu investimento em sequenciamento produza resultados interpretáveis e prontos para publicação.
Perguntas Frequentes
Qual é a diferença entre profundidade de sequenciamento e cobertura?
A profundidade refere-se ao número médio de leituras que cobrem cada base na região alvo. A cobertura pode referir-se à fração do genoma coberta por pelo menos uma leitura (extensão) ou à uniformidade da profundidade em todo o genoma. Ambas as métricas são necessárias para avaliar a qualidade dos dados.
Posso combinar sequenciação de leituras curtas e longas num único projeto?
Sim. Estratégias híbridas que utilizam leituras longas para continuidade e leituras curtas para polimento são padrão para montagem de novo e deteção de variantes estruturais. Muitas montagens de genomas publicadas utilizam esta abordagem combinada.
Qual é a quantidade mínima de DNA necessária para NGS?
A entrada mínima varia consoante o método de preparação da biblioteca: kits padrão baseados em PCR funcionam com 0,1 ng a 1 µg, kits sem PCR requerem 100 ng a 1 µg, kits baseados em tagmentação funcionam com 1-50 ng, e kits de ultra-baixa entrada podem funcionar com apenas 50 pg. Selecionar o kit apropriado para a entrada disponível é fundamental.
Como posso avaliar a qualidade dos dados de NGS a partir de um relatório de sequenciação?
Métricas-chave a verificar: porcentagem de Q30 (>85% para corridas boas), taxa de mapeamento (>80% para DNA humano), taxa de duplicação (<15% para WGS), conteúdo de adaptadores (<1% após o corte) e taxa de alvo para métodos baseados em captura. Um bom relatório de QC deve incluir todas estas métricas com explicações claras.
Como escolho entre WGS e WES para um projeto de genética humana?
Escolha WGS quando for necessária uma deteção abrangente de variantes (incluindo variantes não codificantes, estruturais e regulatórias) e o orçamento permitir. Escolha WES quando o foco estiver nas variantes codificantes e o projeto exigir uma maior profundidade nas regiões exónicas a um custo global mais baixo. O WES perde aproximadamente 98% do genoma, incluindo a maioria das regiões regulatórias e intrónicas, que são cada vez mais reconhecidas como importantes na genética de doenças complexas.
Apenas para uso em investigação.
Referências:
- Visão geral do fluxo de trabalho NGS da Illumina. Illumina, Inc.
- Avaliação de desempenho das plataformas de sequenciação de DNA no Estudo de Sequenciação de Nova Geração da ABRF. Biotecnologia da Natureza. 2021;39:1348-1365.
- A química da sequenciação de próxima geração. Biotecnologia da Natureza2023;41:1709-1715.
- Tecnologia de sequenciação por nanoporo, bioinformática e aplicações. Biotecnologia da Natureza. 2021;39:1348-1365.
- Sequenciação de longas leituras com consenso circular preciso. Biotecnologia da Natureza. 2019;37:1155-1162.