What sequencing depth is needed for CNV detection from WGS?

15-30x for CNVs >5-10 kb. LP-WGS at 1-2x detects CNVs >50-100 kb for cost-effective clinical screening.

How does FFPE sample quality affect CNV detection?

FFPE reduces CNV detection sensitivity by 15-25% compared to fresh-frozen tissue. Matched FFPE normal controls and increased depth partially compensate.

What is the minimum tumor purity for somatic CNV detection?

Most tools require purity above 20-30%. BAF-based tools (Control-FREEC) perform better at low purity than depth-only methods.

How do I choose between CNVkit and GATK gCNV?

GATK gCNV for large-scale WGS germline cohorts with population modeling. CNVkit for project-level WES cancer CNV with matched normal controls.

Can I detect CNVs from RNA-seq data?

RNA-seq CNV detection is possible but less reliable than DNA-based methods. DNA-based validation is recommended for any RNA-seq CNV findings.

What is the minimum reference size for pooled-normal CNV analysis?

Minimum 10 normal samples for WGS and 30 for WES. Below these thresholds, model-based methods like GATK gCNV are preferred.

Análise de Variação do Número de Cópias (CNV): Métodos de Detecção, Estratégias de Profundidade e Ferramentas de Bioinformática

A variação no número de cópias (CNV) refere-se à duplicação ou deleção de segmentos de DNA maiores que 1 kb. Em todo o genoma humano, os CNVs representam mais diferenças totais de pares de bases entre indivíduos do que as variantes de nucleotídeo único, no entanto, continuam a ser mais desafiadores de detectar porque o sinal principal—profundidade de leitura—é uma variável contínua afetada por numerosos fatores técnicos de confusão. Ao contrário da chamada de SNV, que depende da identidade da base numa única posição, a deteção de CNV requer a integração da informação de profundidade através de janelas genómicas, corrigindo para viéses sistemáticos e segmentando o genoma em regiões de número de cópias consistente.

Este guia fornece uma estrutura prática para investigadores que têm experiência com dados de NGS e precisam de projetar, executar e interpretar projetos de análise de CNV. Abrange a base algorítmica da deteção de CNV por profundidade de leitura, a relação quantitativa entre a profundidade de sequenciação e a sensibilidade de deteção, uma comparação detalhada de ferramentas de bioinformática com dados de desempenho de referência, os principais desafios técnicos que comprometem a precisão e estratégias práticas para o design de projetos — desde triagens de baixa profundidade a perfis genómicos de alta resolução. O foco ao longo do texto é em como as decisões analíticas afetam os tipos e tamanhos de CNVs que podem ser detetados de forma fiável, e em evitar as armadilhas comuns que levam a resultados falso-positivos ou falso-negativos. Quer esteja a analisar CNVs germinativas num estudo populacional de mais de 1.000 amostras ou CNVs somáticas numa pequena coorte de cancro, os princípios de normalização de GC, filtragem de mapeabilidade e segmentação consciente da coorte aplicam-se a todas as escalas de análise de CNV.

Serviços de sequenciação do genoma completo suporte à deteção de CNV em todas as configurações de profundidade — desde análises germinativas de alta cobertura 30× até triagens somáticas de baixa cobertura 0,5-2× — com pipelines bioinformáticos correspondentes otimizados para cada abordagem.

O que é Variação no Número de Cópias e Por Que É Importante?

As variantes de número de cópias são alterações estruturais nas quais um segmento de ADN está presente em mais ou menos cópias do que o genoma de referência. Elas variam de aproximadamente 1 kb a vários megabases, e a sua formação é impulsionada principalmente pela recombinação homóloga não alélica (NAHR) entre duplicações segmentares flanqueadoras durante a meiose, e pela junção de extremidades não homólogas (NHEJ) em contextos tanto meióticos como mitóticos. As CNVs são classificadas em deleções (perda de um segmento genómico, reduzindo o número de cópias para 1 ou 0) e duplicações (ganho de uma cópia adicional, aumentando o número de cópias para 3 ou mais). Esta classificação é detectável a partir de dados de sequenciação pela magnitude e direção da alteração na profundidade de leitura—uma deleção heterozigótica reduz a profundidade esperada em 50%, enquanto uma deleção homozigótica reduz a zero.

O impacto biológico das CNVs é substancial. Na linha germinativa, as CNVs são uma causa bem estabelecida de distúrbios genéticos: a síndrome de microdeleção 22q11.2 (1 em 4.000 nascimentos vivos), a doença de Charcot-Marie-Tooth (duplicação de PMP22) e a síndrome de Smith-Magenis (deleção de RAI1) são exemplos clássicos. Estudos em larga escala na população estimam que grandes CNVs (>50 kb) afetam aproximadamente 15% do genoma em número de cópias e representam mais variação genética interindividual do que todas as SNVs combinadas. No câncer, amplificações focais de oncogenes como MYC, EGFR, KRAS e ERBB2 impulsionam diretamente a progressão tumoral, enquanto deleções homozigóticas ou heterozigóticas de genes supressores de tumor, incluindo TP53, CDKN2A, PTEN e RB1, eliminam vias regulatórias críticas. Serviços de chamada de variantes incluir a deteção de CNV como um componente padrão da análise genómica abrangente.

Como a Detecção de CNV a partir de Dados de Sequenciação Funciona — A Base Algorítmica

Todos os métodos de deteção de CNVs baseados em sequenciação partilham uma estrutura algorítmica comum baseada na análise da profundidade de leitura, embora as implementações específicas diferem substancialmente entre as ferramentas. Compreender esta estrutura é essencial para interpretar os resultados de CNV e resolver problemas de análises falhadas.

Contagem de profundidade e janelamentoAs leituras sequenciadas são alinhadas ao genoma de referência, e o número de leituras que mapeiam para cada janela genómica é contado. O tamanho da janela é um parâmetro crítico—janelas menores (100 bp a 1 kb) fornecem maior resolução de quebra, mas menor poder estatístico por janela, enquanto janelas maiores (10-100 kb) aumentam a relação sinal-ruído à custa de quebras desfocadas. Para WGS a 30×, janelas de 1 kb fornecem poder suficiente para a deteção de CNVs. Para LP-WGS a 1×, janelas de 100-500 kb são necessárias. A profundidade de leitura em cada janela segue uma distribuição de Poisson com média igual à cobertura esperada, e os CNVs são identificados como regiões onde a profundidade observada se desvia significativamente desta expectativa após normalização.

Normalização — remoção de variação técnicaA profundidade de leitura bruta é dominada por fatores técnicos não relacionados ao número de cópias. O conteúdo de GC por si só produz uma variação de 2 a 5 vezes na profundidade de cobertura—regiões ricas em GC sequenciam com maior eficiência na maioria dos protocolos de preparação de bibliotecas, criando picos e vales sistemáticos que são consistentes entre amostras do mesmo sequenciamento. A normalização corrige isso ao calcular a razão entre a profundidade observada e a esperada para janelas de conteúdo de GC semelhante, suavizando a curva de viés de GC para remover ruído em escala fina. A correção de mapeabilidade exclui janelas onde uma fração substancial do genoma não pode ser mapeada de forma única por leituras curtas—tipicamente centrômeros, telômeros e duplicações segmentares. Sem essas correções, o sinal de viés de GC produziria chamadas falsas de CNV na maioria das regiões ricas e pobres em GC do genoma.

SegmentaçãoApós a normalização, o perfil de profundidade é dividido em segmentos de número de cópias consistente utilizando algoritmos de segmentação. A segmentação binária circular (CBS), implementada no pacote R DNAcopy, divide recursivamente o genoma em segmentos testando janelas adjacentes para diferenças significativas na profundidade média. O algoritmo PELT (Pruned Exact Linear Time), utilizado pelo GATK gCNV, é mais rápido e escala linearmente com o número de janelas. Modelos de Markov ocultos (HMMs), utilizados pelo XHMM para dados de exoma, tratam o estado de número de cópias como uma variável oculta inferida a partir da sequência de profundidade observada. A escolha do algoritmo de segmentação afeta o equilíbrio entre sensibilidade (detetar pequenas CNVs) e especificidade (evitar a sobre-segmentação do genoma em muitos pequenos segmentos que refletem ruído em vez de verdadeiras CNVs). Na prática, o CBS produz chamadas mais conservadoras com menos falsos positivos, enquanto os HMMs são mais sensíveis à custa de taxas aumentadas de falsos positivos para eventos de janela única.

Atribuição de genótipo a partir da frequência do alelo BAlém da profundidade de leitura, as posições de SNP heterozigóticos nas leituras alinhadas fornecem informações sobre a frequência do alelo B (BAF). Em regiões diploides, o BAF agrupa-se em 0,5 para SNPs heterozigóticos. Em regiões com alteração no número de cópias, o BAF desvia-se de 0,5—perda de heterozigosidade (LOH) desloca o BAF para 0 ou 1, enquanto a amplificação desloca-o de uma forma que depende da razão de cópias do alelo. Ferramentas como Control-FREEC e Canvas incorporam o BAF juntamente com a profundidade para distinguir tipos de CNV (LOH neutro em cópias vs. verdadeira deleção) e para detectar CNVs em amostras com contaminação celular normal, onde o sinal de profundidade por si só pode ser ambíguo.

A relação quantitativa entre a profundidade e a intensidade do sinal CNVA confiança de uma chamada de CNV depende da relação sinal-ruído da variação de profundidade observada. Para uma deleção heterozigótica, a redução de profundidade esperada é de 50%. O desvio padrão da profundidade de leitura numa janela é aproximadamente sqrt(profundidade_média) para contagens distribuídas segundo a Poisson. Com 30× WGS e janelas de 1 kb contendo aproximadamente 30 leituras, o desvio padrão esperado é de ~5,5 leituras (18%), fazendo com que uma redução de 50% seja aproximadamente 9 desvios padrão da média — facilmente detectável. Com 1× LP-WGS e janelas de 200 kb contendo ~200 leituras, o desvio padrão esperado é de ~14 leituras (7%), e a mesma CNV produz uma redução de 50% detectável a ~7 desvios padrão. No entanto, após a correção de GC e normalização removerem o viés sistemático, o ruído residual em LP-WGS é aproximadamente 2-3× maior do que a expectativa de Poisson devido à variabilidade da fragmentação e artefatos de alinhamento. Este ruído adicional é a razão pela qual o LP-WGS requer janelas maiores do que o WGS para uma sensibilidade de deteção equivalente. Compreender esta relação quantitativa ajuda os investigadores a estabelecer expectativas realistas para a deteção de CNV — existe um compromisso direto entre o tamanho da CNV, a profundidade de sequenciação e a confiança na deteção que não pode ser superado apenas com uma melhor normalização bioinformática.

Figura 1: Quatro abordagens de deteção de CNV — cobertura do genoma, resolução e profundidade ótima

Deteção de CNV Baseada em Sequenciamento — Quatro Abordagens Comparadas

A deteção de CNVs a partir de dados de sequenciação pode ser realizada utilizando quatro abordagens que diferem fundamentalmente na cobertura do genoma, profundidade e custo. A escolha entre elas determina que tipos e tamanhos de CNVs podem ser detectados.

WGS a 30× de coberturaO sequenciamento de genoma completo a uma profundidade padrão fornece a detecção de CNVs mais abrangente. A profundidade de leitura é medida em todo o genoma em janelas de 100 bp a 1 kb, corrigida para o conteúdo de GC e mapeabilidade, e segmentada para identificar regiões com cobertura significativamente alterada. O WGS a 30× detecta deleções heterozigóticas tão pequenas quanto 1-5 kb e ampliações tão pequenas quanto 5-10 kb, cobrindo tanto regiões codificantes como não codificantes. O trade-off é o custo do sequenciamento—aproximadamente 90-100 Gb por genoma—o que limita a capacidade de amostragem para estudos de grandes coortes. Dentro da fração codificante do genoma, a resolução é tipicamente de 1-2 kb, suficiente para detectar CNVs de exon único.

WES a 100-200×A sequenciação do exoma completo captura apenas a fração codificadora do genoma (~1-2%, aproximadamente 35 Mb), mas a maior profundidade de leitura proporciona melhor poder estatístico para a deteção de CNVs nas regiões capturadas a um custo comparável ao da WGS. O desafio fundamental da deteção de CNVs baseada em WES é a cobertura não uniforme inerente à captura de alvos — a eficiência de hibridação varia entre sondas e entre regiões dentro do mesmo conjunto de sondas, introduzindo ruído sistemático que é específico do amostra e não pode ser totalmente corrigido pela normalização genérica de GC. O ECOLE (2023, Nature Communications), um chamador de CNV baseado em aprendizagem profunda para dados de WES, aborda isso ao treinar uma rede neural convolucional em dados simulados que incorporam o perfil de ruído específico da captura de cada kit, alcançando 20-30% menos falsos positivos do que os chamadores de CNV convencionais de WES. Para os investigadores que utilizam WES para análise de CNVs, é recomendado um mínimo de 100× de cobertura média do alvo, com pelo menos 30 amostras normais incluídas no projeto para a construção de referências. Serviços de sequenciação do exoma completo oferecer cobertura de 150-200× para design de estudo WES otimizado para CNV.

LP-WGS a 0,5-5×A sequenciação de genoma completo de baixa profundidade (LP-WGS) sequencia todo o genoma a uma fração da profundidade padrão, tornando-se o método de triagem de CNV mais rentável. Com uma cobertura de 1×, aproximadamente 3 Gb por amostra, o LP-WGS deteta CNVs maiores que 50-100 kb com uma sensibilidade comparável à microarray cromossómica, tornando-se uma alternativa viável para a triagem clínica de CNV onde os requisitos de resolução são moderados. Um marco de 2025 na revista Briefings in Bioinformatics demonstrou que, a 1× com janelas de 200 kb, o LP-WGS alcança uma sensibilidade superior a 90% para deleções >100 kb e >85% para duplicações >150 kb. O parâmetro do tamanho da janela é a chave—janelas maiores melhoram a sensibilidade à custa da resolução de pontos de quebra, e a configuração ideal escala inversamente com a profundidade (200 kb a 1×, 50 kb a 5×). Para projetos que precisam equilibrar a deteção de CNV com o rendimento de amostras, o LP-WGS oferece a melhor economia por amostra.

Sequenciação de leitura longa (PacBio HiFi / Nanopore)Leituras longas que abrangem 10-20 kb (HiFi) ou que excedem 100 kb (Nanopore) abordam a deteção de CNVs a partir de um princípio fundamentalmente diferente: em vez de inferir o número de cópias a partir da profundidade, elas podem fisicamente abranger os pontos de quebra dos CNVs, proporcionando resolução de par de bases da junção dos pontos de quebra. Isto é particularmente valioso para CNVs em regiões repetitivas—duplicaçõe segmentares, a região MHC, arrays de genes em tandem—onde os sinais de profundidade de leituras curtas são pouco fiáveis. O chamador de CNV HiFi da PacBio (2024) é a primeira ferramenta otimizada para a deteção de CNVs a partir de leituras longas. Um benchmark de 2024 descobriu que leituras HiFi a 15× detetaram ~30% mais CNVs do que o WGS de leituras curtas a 30× nas mesmas amostras, com chamadas adicionais concentradas em duplicações segmentares. O trade-off é o custo—o sequenciamento de leituras longas com cobertura genómica equivalente é 3-5× mais caro do que os métodos de leituras curtas.

Figura 2: Sensibilidade na deteção de CNV em função da profundidade de sequenciação e do tamanho do CNV

Ferramentas de Bioinformática para Detecção de CNV — Base Algorítmica e Desempenho de Referência

Um estudo de referência de 2024 na Genome Biology avaliou seis ferramentas de chamada de CNV numa linha celular cancerígena hiperdiploide (HCC1395) com dados de WGS e WES correspondentes, gerando dados de desempenho acionáveis para a seleção de ferramentas.

CNVkit: Projetado para dados de WES com amostras tumorais-normais pareadas. O CNVkit constrói uma referência agrupada a partir de amostras normais, corrige o viés de GC e segmenta o sinal de cobertura usando segmentação binária circular. É a ferramenta de CNV de WES mais amplamente validada na genómica do câncer. Resultado de referência: >90% de precisão na deteção de CNV somáticos de WES com controles normais correspondentes. Melhor para: análise de WES de câncer a nível de projeto com >10 amostras normais.

GATK gCNVDesenvolvido para a deteção de CNVs germinativas em WGS a escala populacional. Utiliza um modelo Bayesiano com segmentação PELT que aprende o perfil de cobertura a partir de uma coorte (não requer controlos normais emparelhados para cada amostra). Padrão para grandes coortes de WGS (mais de 100 amostras). Resultado de referência: maior taxa de recuperação (>85%) para CNVs germinativas raras devido à desnoising consciente da coorte. Melhor para: estudos de CNVs germinativas em WGS em grande escala onde não estão disponíveis controlos normais.

Control-FREECIdentifica CNVs utilizando tanto a profundidade de leitura como a frequência do alelo B, permitindo a deteção na ausência de controlos normais correspondentes. A sua capacidade específica para alelos é útil para amostras com contaminação de células normais—BAF pode revelar CNVs onde a profundidade sozinha é ambígua. Resultado de referência: precisão moderada (~80%) mas melhor flexibilidade entre tipos de dados. Melhor para: projetos com amostras de controlo limitadas ou onde é necessária informação alélica.

TelaChamador de CNV recomendado pela Illumina para WGS e WES. Integra profundidade com correção de GC/mapeabilidade e BAF de leituras SNP. Otimizado para o pipeline DRAGEN da Illumina. Resultado de benchmark: >90% de precisão para CNVs somáticos em WGS, comparável ao CNVkit para WES. Melhor para: fluxos de trabalho apenas da Illumina e integração de pipeline automatizada.

ESCOLAChamador de CNV para WES baseado em deep learning (rede neural convolucional). Treinado em dados simulados com ruído específico de captura, alcançando taxas de falsos positivos mais baixas do que o CNVkit para CNVs de exon único. Resultado de benchmark: 20-30% menos falsos positivos do que o CNVkit para WES. Melhor para: projetos de WES que exigem alta especificidade, particularmente onde a capacidade de validação é limitada.

HiFiCNVChamador de CNV de long-read da PacBio para leituras HiFi. Segmenta a cobertura de long-read após correção de GC, beneficiando-se da alta mapeabilidade das long reads. Ferramenta em estágio inicial. Resultado de benchmark: detecta ~30% mais CNVs em regiões repetitivas do que métodos de short-read. Melhor para: projetos que utilizam dados HiFi da PacBio que requerem deteção de CNVs em regiões genómicas complexas.

Serviços de deteção de CNV apoie cada uma destas ferramentas com fluxos de trabalho validados, permitindo que os investigadores selecionem a ferramenta apropriada com base no seu tipo de dados e objetivos do projeto.

Figura 3: Pipeline de bioinformática de CNV — principais etapas de processamento desde leituras brutas até chamadas de número de cópias

Principais Desafios que Comprometem a Precisão da Detecção de CNV

A deteção de CNV é mais sensível a artefatos técnicos do que a deteção de SNV, uma vez que a profundidade de leitura é afetada por múltiplos fatores independentes do número biológico de cópias. Compreender esses fatores de confusão e aplicar correções apropriadas é essencial para obter chamadas fiáveis.

viés de GCA eficiência da amplificação por PCR varia com o conteúdo de GC numa faixa de 2 a 5 vezes, criando uma variação sistemática de profundidade que imita sinais de CNV. A correção de GC calcula as razões de profundidade observada para esperada dentro de janelas com correspondência de GC, mas esta correção é imperfeita para amostras de DNA fragmentadas ou de baixo input. O viés residual após a correção representa uma fração substancial de chamadas de CNV falso-positivas tanto em dados de WGS como de WES, particularmente em regiões promotoras ricas em GC e em regiões intergénicas pobres em GC.

MapeabilidadeAproximadamente 10-15% do genoma humano—centromeros, telómeros, arranjos de DNA ribossómico e duplicações segmentares—não podem ser mapeados de forma única por leituras curtas e devem ser excluídos da análise de CNV. As CNVs nessas regiões são sistematicamente perdidas. Para WES, a fração inacessível depende do design do kit de captura e pode atingir 15-20% das regiões alvo.

Requisito normal correspondenteA chamada de CNVs a partir de uma única amostra — identificando CNVs a partir da profundidade de uma amostra sem comparação de referência — tem precisão limitada porque a variação técnica da profundidade não pode ser distinguida do sinal biológico de CNV em isolamento. A prática padrão utiliza um controlo normal emparelhado (câncer somático) ou uma referência agrupada de ≥10 amostras normais (WGS germinativo) ou ≥30 amostras (WES germinativo). Projetos que atendem a esses mínimos utilizam ferramentas com normalização baseada em modelo incorporada (GATK gCNV) como alternativa.

artefatos FFPEO DNA de FFPE tem tamanhos de fragmentos médios <300 bp e bases desaminadas devido à ligação cruzada com formalina. Estas propriedades aumentam a variância de profundidade e reduzem a relação sinal-ruído do CNV. Um benchmark de 2024 encontrou que a precisão da deteção de CNV diminui em 15-25% para FFPE em comparação com tecido fresco-congelado. As estratégias de mitigação incluem controlos normais FFPE correspondentes, aumento da profundidade de sequenciação e métodos de normalização especializados para DNA fragmentado.

Pureza e heterogeneidade do tumorEm amostras de cancro, o sinal CNV eficaz é o produto do estado CNV, da fração de células tumorais que transportam esse CNV e da pureza da amostra. Um CNV presente em 40% das células tumorais numa amostra com 60% de pureza produz uma alteração de profundidade de apenas 12% em relação ao diploide — indistinguível do ruído na maioria dos pipelines. Ferramentas baseadas em BAF (Control-FREEC) mantêm a deteção com pureza até ~20%, enquanto métodos apenas de profundidade requerem >30% para a chamada de CNV somáticos.

Limites de baixa cobertura para tipos específicos de CNVDiferentes tipos de CNV têm diferentes limites de deteção à mesma profundidade. As amplificações (ganhos) produzem sinais mais fracos do que as deleções — uma triplicação produz apenas um aumento de 50% na profundidade esperada em comparação com a diminuição de 50% de uma deleção de cópia única. A 30× WGS, ambos são detectáveis, mas a 1× LP-WGS, as amplificações requerem eventos 2-3× maiores para alcançar uma confiança comparável. As deleções homozigóticas produzem o sinal mais forte (profundidade a aproximar-se de zero no alvo) e são detectáveis mesmo nas profundidades mais baixas. Compreender estes limites de deteção específicos por tipo é importante para o planeamento de projetos que visam detectar classes específicas de CNVs.

Figura 4: Desafios na análise de CNV tumoral — o efeito combinado da pureza, qualidade da amostra e profundidade de sequenciação

Análise de CNV no Cancro — Considerações Somáticas vs. Germinativas

A deteção de CNVs somáticos no câncer difere da deteção de CNVs germinativas em três aspetos críticos: a necessidade de uma amostra normal correspondente, a presença de CNVs subclonais e o efeito confundidor das alterações na ploidia tumoral.

Uma amostra normal pareada (sangue ou tecido normal adjacente) é essencial para distinguir CNVs somáticas de CNVs germinativos herdados e de artefatos técnicos. A normal pareada fornece correção de viés de GC específico da amostra, eficiência de captura e efeito de corrida de sequenciação. Na sua ausência, referências normais agrupadas podem compensar parcialmente, mas com sensibilidade reduzida. Para estudos de câncer, a LP-WGS a 1-2× está a ser rapidamente adotada para o perfilamento de CNVs somáticas em grandes coortes — um estudo de 2025 com 2.000 amostras de câncer descobriu que a LP-WGS a 1× detectou ampliações focais e deleções homozigóticas com >85% de concordância com WGS a 30× para eventos maiores que 100 kb.

As assinaturas de número de cópias—padrões genómicos de ampliações e deleções ligados a processos mutacionais específicos—fornecem informações além das alterações em genes individuais. O escore HRD (deficiência de recombinação homóloga) derivado de padrões de CNV (variação no número de cópias) em todo o genoma é estabelecido como um biomarcador preditivo para a resposta à terapia com inibidores de PARP. Serviços de WGS clínico suporte tanto para configurações de profundidade padrão como para configurações de baixa passagem para análise de CNV do câncer, com protocolos pareados de tumor-normal disponíveis.

Deteção de CNV em células únicasUma fronteira emergente na análise de CNV é o perfilamento de CNV em células únicas, que resolve a heterogeneidade intra-tumoral que é média em sequenciação em massa. A WGS de célula única a uma profundidade de baixa cobertura (0,1-1× por célula) combinada com algoritmos de inferência de número de cópias pode reconstruir a arquitetura clonal de um tumor ao detectar diferenças de CNV entre células individuais. Esta abordagem tem sido utilizada para traçar padrões de disseminação metastática e identificar subclones raros que transportam CNVs conferidores de resistência que são invisíveis na análise em massa. O trade-off é que os dados de célula única têm mais ruído por célula do que os dados em massa, exigindo normalização e algoritmos de chamada especializados e um maior número de células para uma atribuição de CNV confiante. Projetos que considerem a análise de CNV em células únicas devem orçamentar pelo menos 100-500 células por amostra para alcançar poder estatístico suficiente para a detecção de subclones.

Figura 5: Guia de seleção de ferramentas de análise de CNV — correspondendo a ferramenta ao tipo de dados e objetivo de pesquisa

Sequenciação de Longo Alcance para Detecção de CNV

A sequenciação de leitura longa aborda a limitação fundamental da deteção de CNVs de leitura curta: a incapacidade de mapear leituras a regiões repetitivas e a incapacidade de abranger pontos de quebra. As leituras PacBio HiFi de 10-20 kb com >99,9% de precisão podem abranger diretamente os pontos de quebra de CNV, enquanto as leituras ultra-longas da Nanopore que excedem 100 kb podem abranger rearranjos complexos inteiros.

Um benchmark de 2024 sobre a deteção de CNVs de leitura longa descobriu que leituras HiFi a 15× detetaram aproximadamente 30% mais CNVs do que WGS de leitura curta a 30× nas mesmas amostras, com chamadas adicionais concentradas em duplicações segmentares e outras regiões repetitivas. A resolução de pontos de quebra melhorou de 1-10 kb (leitura curta) para dentro de 100 bp (HiFi).

A deteção de CNVs de leitura longa é mais valiosa quando o foco da pesquisa envolve regiões genómicas complexas—duplicações segmentares, a região MHC, famílias de genes duplicados em tandem ou hotspots de CNV conhecidos. Para projetos focados nos >90% do genoma acessíveis a leituras curtas, os métodos de leitura curta continuam a ser a escolha prática devido ao menor custo e a ferramentas mais desenvolvidas.

Estratégias híbridas para análise abrangente de CNVPara projetos que exigem tanto triagem genómica abrangente e rentável como análise de pontos de quebra de alta resolução, uma abordagem híbrida que combina sequenciação de genoma completo de leitura curta (LP-WGS) a 1-2× para identificação inicial de CNVs com sequenciação direcionada de leitura longa das regiões de pontos de quebra de CNVs proporciona a utilização mais eficiente dos recursos. O rastreio LP-WGS identifica CNVs candidatas e estima os seus limites aproximados, enquanto a sequenciação de leitura longa resolve o ponto de quebra preciso e identifica a arquitetura sequencial subjacente (por exemplo, NAHR entre elementos repetidos específicos). Esta abordagem em etapas tem sido utilizada com sucesso em pipelines de validação clínica de CNVs e em estudos populacionais onde é necessária uma caracterização abrangente de CNVs, mas as restrições orçamentais limitam a utilização de sequenciação de leitura longa em todo o genoma.

Validação de CNV — O Papel dos Métodos Ortogonais

As chamadas de CNV computacionais devem ser validadas por métodos ortogonais antes de se tirarem conclusões biológicas fortes. A PCR em gotículas digitais (ddPCR) fornece quantificação absoluta do número de cópias em loci específicos e é prática para validar de 5 a 20 candidatos por projeto, com sensibilidade de deteção suficiente para confirmar ganhos ou perdas de cópias únicas em amostras com 50% ou mais de pureza tumoral. A microarray cromossómica (aCGH) continua a ser o padrão de referência a nível do genoma, com >95% de sensibilidade e especificidade para CNVs >50 kb, e serve como a plataforma de referência para a maioria dos pipelines clínicos de validação de CNV. Para projetos que reportam CNVs associados a doenças novas ou resultados de grau clínico, a validação por pelo menos um método ortogonal é uma prática padrão antes da publicação ou reporte clínico.

Bases de Dados CNV para Anotação e Interpretação

Navegador do Genoma UCSCPlataforma de visualização primária para chamadas de CNV em contexto genómico, com faixas para elementos repetidos, genes conhecidos, duplicações segmentares e frequência de CNV populacional a partir do 1000 Genomes e gnomAD.

Base de Dados DECIPHER: Seleciona CNVs associados a distúrbios genéticos, ligando cada variante a fenótipos clínicos e conteúdo genético para avaliação de patogenicidade.

Base de Dados ClinGenPontuações de sensibilidade à dosagem a nível de gene—avaliações sistemáticas de haploinsuficiência e triplosensibilidade para cada gene—orientam a interpretação sobre se uma CNV que contém um gene é provavelmente patogénica. Serviços de análise de dados genómicos integrar estas bases de dados em fluxos de trabalho de anotação automatizados.

Recursos Computacionais para Análise de CNV

A análise de CNV é computacionalmente modesta em comparação com o alinhamento de WGS ou montagem de novo. Uma amostra de WGS a 30× requer aproximadamente 1-2 horas para a chamada de CNV (após o alinhamento) em um nó de computação padrão. A chamada de CNV de WES com CNVkit requer 30-60 minutos por amostra. O LP-WGS a 1× processa em 15-30 minutos. O GATK gCNV requer processamento a nível de coorte — após o modelo ser construído a partir da coorte (1-2 horas), a chamada de amostras individuais é rápida (10-20 minutos por amostra). Os requisitos de armazenamento são dominados pelos arquivos BAM/CRAM alinhados necessários para a extração de profundidade. Projetos que utilizam computação em nuvem devem orçar recursos computacionais com base no número de amostras e no volume de dados.

Figura 6: Roteiro do projeto de análise de CNV — da questão de pesquisa à interpretação de CNV

Perguntas Frequentes

Qual a profundidade de sequenciamento necessária para a deteção de CNV a partir de WGS?
Para a deteção de CNVs superiores a 5-10 kb em todo o genoma, uma cobertura de 15-30× é padrão. O LP-WGS a 1-2× deteta CNVs superiores a 50-100 kb para triagem clínica onde a eficiência de custos é priorizada.

Como é que a qualidade da amostra FFPE afeta a deteção de CNV?
As amostras FFPE têm DNA fragmentado e danos nas bases que aumentam o ruído de profundidade de leitura, reduzindo a sensibilidade de deteção de CNV em 15-25% em comparação com tecido fresco-congelado. O uso de controlos normais FFPE emparelhados e o aumento da profundidade de sequenciação compensam parcialmente.

Qual é a pureza tumoral mínima para a deteção de CNV somáticos?
A maioria das ferramentas requer uma pureza acima de 20-30% para uma deteção fiável. As ferramentas baseadas em BAF (Control-FREEC) apresentam um desempenho melhor em baixas purezas do que os métodos apenas baseados na profundidade.

Como escolho entre o CNVkit e o GATK gCNV?
O GATK gCNV é recomendado para a deteção de CNV germinativos em WGS em grande escala, onde um modelo populacional pode ser construído. O CNVkit é recomendado para CNV em câncer a nível de projeto em WES com controlos normais emparelhados.

Posso detectar CNVs a partir de dados de RNA-seq?
A deteção de CNV por RNA-seq é possível, mas menos fiável do que os métodos baseados em DNA devido à variação na expressão. A validação por métodos baseados em DNA é recomendada para quaisquer descobertas de CNV por RNA-seq.

Qual é o tamanho mínimo de referência para a análise de CNV normal agrupada?
Mínimo de 10 amostras normais para WGS e 30 para WES, refletindo o nível de ruído mais elevado da captura de alvos. Abaixo destes limiares, métodos baseados em modelos (GATK gCNV) são preferidos.

Referências

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados