What is “gene copy number” in practical terms?

Gene copy number is the inferred number of DNA copies overlapping a gene. Most pipelines infer it from segments whose boundaries may not match gene boundaries—so “gene-level CNV” is often a segment interpretation unless the assay provides dense locus evidence.

Can low-pass WGS reliably detect gene-level deletions/duplications?

Sometimes, but not consistently across loci. Low-pass is strongest for broad events. Gene-level detection depends on locus mappability, GC, bin size, and noise. If you must be right, plan deeper coverage or targeted confirmation.

Does smaller bin size always improve resolution?

No. Smaller bins increase spatial detail but also increase noise per bin. If coverage is not increased accordingly, smaller bins can produce more false positives and unstable segmentation.

Why do some loci show “recurrent CNVs” across many unrelated samples?

Often technical artifacts: low mappability, repeats, or reference bias. Cohort-wide recurrence in the same region is a strong signal to use masks/blacklists and treat that region cautiously.

What deliverables should we require for cohort CNV work?

At minimum: genome-wide plots, segment tables, QC summaries, and mask/blacklist reporting. For scale, request cohort QC dashboards and documented parameter defaults (bin size, segmentation rules, normalization approach).

How should we handle “tentative” gene-level calls in RUO pipelines?

Label them explicitly as tentative and route them to a predefined confirmation path (targeted sequencing, MLPA, or higher-depth WGS). Avoid embedding tentative calls into downstream decisions without confirmation.

How do microarrays compare for gene-level resolution?

Arrays can provide higher locus density in some regions, but probe placement is uneven and repeat regions remain difficult. Arrays and WGS have different bias profiles; the best choice depends on your question type and cohort scale.

What’s the most common reason CNV results differ between batches?

Batch effects: changes in library prep, sequencing runs, or sample handling that alter coverage bias patterns. The fix is rigorous batch QC, consistent protocols, and batch-aware normalization.

CNV a Nível de Gene vs. CNV Cromossómico: Compreendendo a Resolução e Limites

A análise de variação no número de cópias (CNV) só funciona se a resolução efetiva corresponder à sua questão de pesquisa e ao seu nível de ruído. Para grandes coortes, pode ser que apenas precise sinalizar eventos de cromossomos inteiros e braços de cromossomos de forma consistente. Mas se a questão for "Este gene específico está amplificado ou deletado?", o mesmo design de baixo nível que se destaca em CNAs amplos pode tornar-se ambíguo—especialmente em regiões repetitivas, com desvio de GC ou de baixa mapeabilidade.

Este recurso explica o que significa realmente a "resolução" de CNV, o que a controla em microarrays versus sequenciação de genoma completo, por que o "CNV a nível de gene" nem sempre é identificável em designs de baixa cobertura e como selecionar a plataforma certa e os parâmetros adequados para fluxos de trabalho de coorte RUO.

1. O que "Resolução" Significa na Chamada de CNV

A "resolução" não é um único número. É o menor tamanho de evento que você pode detectar e chamar de forma consistente com um risco aceitável de falsos positivos/falsos negativos, dado o seu nível de ruído. Na prática, a resolução de CNV é limitada por:

Densidade de sinal: quantas observações independentes suportam uma mudança de CN (por exemplo, bins, sondas)
Ruído: variância de cobertura, ondas GC, quedas de mapeabilidade, efeitos de lote
Comportamento de segmentação: os algoritmos não "veem genes"; eles inferem segmentos de constante por partes que melhor explicam os dados.

Uma forma útil de pensar sobre a resolução em coortes RUO é: Qual é o menor CNV que permanece estável se você repetir a mesma amostra em um lote, faixa ou semana diferente? Se a resposta mudar, você está abaixo da resolução efetiva do seu fluxo de trabalho.

1.1 Eventos ao nível do gene vs ao nível do segmento vs ao nível cromossómico

Separe a sua intenção em três "escalas de evento":

Eventos a nível cromossómico
Ganho/perda de cromossomas inteiros (aneuploidia) ou CNAs muito grandes.
Eventos a nível de segmento
Mudanças contínuas de CN que abrangem megabases a centenas de kilobases. Muitos pipelines de baixa cobertura estão efetivamente neste regime.
Eventos a nível de gene (CNVs focais)
Pequenas deleções/duplicaçõe que sobrepõem um ou poucos genes. Estas podem ter dezenas de kb (ou menores), por vezes com pontos de ruptura complexos e repetições.

Um ponto prático importante: mesmo quando uma CNV sobrepõe um gene, a chamada é geralmente derivada do segmento, não é verdadeiramente "resolvida por gene", a menos que o ensaio forneça densidade suficiente (probes) ou profundidade/binários (WGS) ao longo desse gene.

1.2 O que controla a resolução: densidade da sonda (matrizes) vs profundidade/tamanho do bin (WGS)

Microarrays: A resolução efetiva é principalmente limitada pela densidade e colocação das sondas. Regiões com sondas escassas (repetições, duplicações segmentares) reduzem a resolução utilizável. Designs de alta densidade podem aproximar a cobertura a nível de exon/gene em regiões bem comportadas, mas o desempenho é desigual em todo o genoma.
CNV de profundidade de leitura WGS: A resolução é controlada por dois botões ligados:

Cobertura (×): uma maior cobertura reduz o ruído de amostragem
Tamanho do bin (tamanho da janela): bins menores aumentam o detalhe espacial, mas aumentam o ruído por bin.

Intuição sobre o tamanho do bin × profundidade (sem fórmulas, apenas realidade):
Reduzir o tamanho dos bins sem aumentar a profundidade tende a inflacionar a variância em cada bin. Isso frequentemente produz perfis "ocupados" com muitos segmentos curtos—exatamente o padrão que se assemelha a CNVs focais, mas que é na verdade instabilidade. Se reduzir o tamanho dos bins de forma agressiva em baixa cobertura, normalmente troca a aparente "detalhe" por uma taxa de falsos positivos mais alta e uma pior reprodutibilidade entre lotes. A Figura 1 é um lembrete útil: a resolução é conquistada pela densidade do sinal, não por um zoom desejoso.

Para fluxos de trabalho em escala de coorte, as equipas geralmente visam uma padronização estável de ponta a ponta: um fluxo de trabalho padronizado de Sequenciamento de Genoma Completo (WGS) emparelhado com um/a pipeline de chamada de variantes repetível e parâmetros de CNV documentados (binagem, máscaras, padrões de segmentação).

Veja a Figura 1 para alinhar a sua escala de perguntas com a densidade mínima de sinal necessária antes de interpretar os resultados a nível de "gene".

Figure 1. CNV Resolution Ladder: What You Can Call at Each Scale. Chromosome → arm → Mb segment → kb segment → gene; arrays are constrained by probe density, WGS by coverage and bin size. Figura 1. Escada de Resolução de CNV: O que Pode Ser Identificado em Cada Escala. Cromossoma → braço → segmento de Mb → segmento de kb → gene; as matrizes são limitadas pela densidade de sondas, o WGS pela cobertura e pelo tamanho do bin.

1.3 Por que o "CNV a nível de gene" nem sempre é identificável em designs de baixo sequenciamento

Os designs de passa-baixa são otimizados para escalabilidade. Mas "CNV a nível de gene" requer evidência local de alta confiança sobre um curto intervalo genómico.

Razões comuns pelas quais o low-pass tem dificuldades em escala genética:

Muito poucos bins informativos a sobrepor-se ao locus (especialmente se os bins forem ≥100 kb)
Limites de mapeabilidade: leituras curtas em repetições/duplicações segmentares produzem cobertura ambígua
Ondas impulsionadas por GC: pequenos loci podem ser dominados por um viés local de GC em vez de um verdadeiro CN.
Suavização de segmentação: algoritmos favorecem segmentos mais longos e estáveis quando o ruído é elevado.

Em resumo: em configurações de passa-baixa, as chamadas a nível de gene são frequentemente melhor tratadas como hipóteses, a menos que consiga demonstrar um forte suporte local e um controlo de qualidade estável.

2. Eventos Cromossómicos: No Que o Low-Pass Se Destaca

Se o seu objetivo de coorte é identificar alterações de número de cópias em grande escala de forma fiável (cromossomo / braço / multi-megabase), o WGS de baixa profundidade é frequentemente uma boa opção.

2.1 Ganhos/perdas de cromossomas inteiros (aneuploidia)

Mudanças de CN em cromossomas inteiros geram um sinal grande e coerente ao longo de todo um cromossoma. Mesmo com uma cobertura modesta, estes eventos podem aparecer como desvios estáveis na razão de cópias em muitos bins—tornando-os comparativamente robustos ao ruído e ao viés local.

Nos programas de coorte RUO, uma abordagem comum é padronizar a "detecção ampla de CNA" como um entregável de produção sob Sequenciação de CNV com binagem fixa, mascaramento e portões de QC. O objetivo não é maximizar o detalhe por amostra; é maximizar a consistência do grupo.

2.2 Eventos de braço de cromossoma e grandes CNAs

Eventos a nível de braço (perda do braço p, ganho do braço q) são sinais igualmente "amplos". Tendem a ser detectáveis quando a sua binagem e normalização estão estáveis e o seu pipeline exclui regiões problemáticas de forma adequada.

Operacionalmente, é aqui que a "resolução" se torna acionável: se você pode aceitar "nível de braço e acima", pode priorizar o processamento padronizado e a comparabilidade de coortes. Muitos rastreios em grande escala usam abordagens de sequenciação superficial (WGS de baixa profundidade) especificamente porque preservam uma ampla sensibilidade a eventos enquanto mantêm a pegada por amostra gerenciável.

Veja a Figura 2 para a assinatura visual de CNAs amplos e estáveis que são apropriados para relatórios de grau de segmento.

Figure 2. Example CNA Landscape: Broad Shifts Across Chromosomes. Whole-chromosome and arm-level events create smooth shifts in copy ratio across many bins. Figura 2. Exemplo de Paisagem CNA: Mudanças Abrangentes Através dos Cromossomas. Eventos a nível de cromossoma inteiro e de braço criam mudanças suaves na razão de cópias através de muitos bins.

2.3 Formatos de relatório comuns (gráficos de genoma completo, tabelas de segmentos)

Para o trabalho da coorte RUO, as saídas de CNV devem suportar:

QC a nível de coorte (sinalizar outliers, efeitos de lote),
revisão do evento (o que mudou, onde, quão grande)
integração a jusante (anotação, estratificação, relatórios).

Entregáveis típicos:

Gráfico de razão de cópias em todo o genoma (resumo por amostra e/ou coorte)
Tabela de segmentos (chr, início, fim, razão log2, estado CN inferido, confiança opcional)
Resumo de QC (métricas de mapeamento, métricas de ruído, bandeiras de viés)
Relatório de máscara/lista negra (regiões excluídas como centrómeros/mapeabilidade baixa)

Se já tiver bibliotecas preparadas e quiser manter o processamento de coortes consistente, sequenciação de biblioteca pré-fabricada pode ajudar a padronizar as condições de corrida para corrida, mantendo o seu pipeline de CNV a jusante comparável.

3. Eventos a Nível Genético: Quando Precisa de Mais Sinal

Quando a sua pergunta é focal—"este gene tem um ganho/perda?"—assuma que precisa de mais densidade de sinal ou de uma estratégia direcionada.

3.1 Amplificações/deleções focais pequenas: por que são mais difíceis

Os eventos focais são difíceis porque competem com fontes de ruído em escalas de comprimento semelhantes:

As ondas GC podem parecer um pequeno ganho/perda.
a ambiguidade do alinhamento local reduz as leituras utilizáveis
a segmentação pode fundir pequenos eventos na linha de base vizinha se as evidências forem escassas

Em outras palavras, a deteção de CNV focal não é apenas "aproximar-se." É mudar o experimento e o fluxo de trabalho de modo que o locus tenha evidências independentes suficientes.

3.2 Botões práticos: cobertura mais profunda, ensaios direcionados, estratégias híbridas

Três estratégias comuns:

A) Aumentar a cobertura e apertar os contentores
Se conseguir passar de um filtro passa-baixas para um WGS mais profundo, reduz a variância por bin e pode diminuir os tamanhos dos bins de forma mais segura. Isso aumenta a sensibilidade a eventos menores, mas também aumenta o cálculo e o armazenamento, e pode amplificar os efeitos de lote se os protocolos não estiverem fixos.

B) Utilize enriquecimento direcionado quando apenas um subconjunto de loci é relevante.
Se se preocupa com loci definidos, abordagens direcionadas concentram as leituras onde você precisa delas:

sequenciação de regiões alvo para loci personalizados
a serviço de sequenciação de painel genético quando os locais são estáveis e bem definidos

Os designs direcionados podem melhorar a confiança a nível de locus, mas é necessário ter em conta o viés de densidade de alvos e o comportamento de normalização que difere do WGS.

C) Estratégia híbrida: filtrar amplamente, confirmar de forma focalizada
Um padrão comum de coorte é: WGS de passagem baixa para triagem ampla → método direcionado/ortogonal para confirmação focal. Isso preserva o contexto da coorte enquanto protege decisões a nível de gene que "devem estar corretas".

Para confirmação ortogonal do número de cópias em loci específicos, utilize ensaios de cópia de número ortogonais (por exemplo, MLPA) quando apropriado para as necessidades de localização e throughput.

3.3 Interpretar chamadas a nível de gene com cautela (repetições, GC, mapeabilidade)

Se tiver de reportar chamadas a nível de gene a partir de um design de sinal mais baixo, faça-o com advertências explícitas e portões de controlo de qualidade:

As duplicações segmentares e os parálogos podem distorcer a profundidade de leitura.
Extremos de GC: artefatos de cobertura sistemática aumentam falsos positivos locais.
Mapeabilidade: baixa unicidade reduz a contagem efetiva de leituras que suportam o locus.
Ambiguidade de limite: os pontos de interrupção raramente se alinham de forma limpa com os bins/probes.

Um hábito prático de reporte é rotular as descobertas a nível de genes como:

"suportado" (vários recipientes/probes adjacentes suportam a mudança, resíduos de GC baixos, ruído aceitável), ou
"tentativa" (poucos bins, risco de GC/mapeabilidade) com um método de seguimento recomendado.

4. Escolhendo a Plataforma Certa por Tipo de Pergunta

Esta secção é destinada a dois públicos: líderes de operações (escala, rendimento) e proprietários de pipeline (prontidão para QC). Veja a Figura 3 para um rápido caminho "pergunta → método".

4.1 Triagem de grandes coortes: priorizar a capacidade de processamento + deteção ampla de eventos

Se o seu objetivo é a triagem em escala de coorte para eventos de cromossoma/braço/grande segmento, priorize:

parâmetros padronizados de preparação de bibliotecas e sequenciação,
normalização estável entre lotes,
entregáveis que são fáceis de controlar a qualidade em grande escala.

Para compatibilidade a jusante (estudos de associação, estrutura, estratificação), alguns programas combinam saídas de CNV com camadas de genotipagem, como genotipagem de SNPs em genoma completo onde o desenho do estudo se beneficia de métricas baseadas em SNP.

Para uma comparação a nível de plataforma entre WGS de baixa passagem e microarrays para rastreio de CNV, veja este guia.

4.2 Confirmação do alvo do modelo/programa (RUO): decidir se a sensibilidade focal é necessária

Se o próximo passo depender de uma conclusão a nível de gene (por exemplo, se um locus é ganho/perdido num modelo de investigação não clínica), decida de antemão se necessita de:

chamadas de CNV focais de alta confiança, ou
contexto amplo de CNA + uma confirmação explícita de seguimento.

Quando a sensibilidade focal é necessária, considere:

WGS mais profundo, ou
enriquecimento direcionado (por exemplo, um serviço de sequenciação de painel genético), além de
um fluxo de trabalho de confirmação ortogonal.

Para alguns programas, um pacote de confirmação prática é o sequenciamento de loci alvo mais a validação de pontos de ruptura por Sequenciação de Sanger quando junções específicas são conhecidas ou podem ser amplificadas.

4.3 Preparação do pipeline: o que as equipas internas precisam para QC e compatibilidade

Para os proprietários de bioinformática e plataformas, a prontidão é sobre repetibilidade:

Escolha de referência e máscaras: construção do genoma consistente e listas negras de mapeabilidade
Estratégia de normalização: correção de GC/mapeabilidade e controlos conscientes do lote
Parâmetros de segmentação: predefinições estáveis com regras de afinação documentadas.
Painel de QC de Coorte: detectar outliers, desvios e efeitos de lote precocemente
Especificações dos entregáveis: gráficos padronizados, tabelas de segmentos, limites de QC.

Para detalhes de implementação—binning, QC e expectativas de entregáveis em pipelines de baixa passagem—veja este artigo de bioinformática WGS de passa-baixa.

Figure 3. Question → Method Decision Tree. Choose broad screening vs higher-resolution follow-up vs orthogonal confirmation, with QC checkpoints. Figura 3. Questão → Árvore de Decisão do Método. Escolher triagem ampla vs acompanhamento de maior resolução vs confirmação ortogonal, com pontos de controlo de QC.

5. QC e Resolução de Problemas: Tornar a "Resolução" Confiável em Grande Escala

As reivindicações de resolução só são significativas se você puder mostrar que os dados são estáveis. Abaixo está um manual prático de QC orientado para trabalho RUO em escala de coorte.

5.1 Sinais mínimos de QC a rastrear (por amostra)

Acompanhe estes, no mínimo:

Contagem de leituras mapeadas (leituras utilizáveis após filtragem)
Uniformidade de cobertura / completude de bins (fração de bins com leituras suficientes)
residual de viés GC (inclinação/residual pós-correção)
Métrica de ruído (MAD de razões log2, variância bin-a-bin ou resíduo de segmentação)
Fração de outliers/listados como indesejados (proporção de bins mascarados)

Dica: defina uma "banda de passagem de QC" usando as primeiras ~50–100 amostras, depois fixe os limiares para a produção para evitar mudanças nos objetivos.

Módulo B: Tabela inicial do limiar de QC (calibrar, depois bloquear)
Estes são pontos de partida a serem calibrados nas suas primeiras 50–100 amostras; fixe os limiares para produção uma vez validados.

métrica de QC	Iniciando a banda "Go" (RUO)	banda "Caution"	O que impacta	Ação típica
Taxa de mapeamento (alinhamento primário)	≥ 90%	80–90%	densidade de sinal eficaz	revisão de corte/referência; amostra de bandeira
Taxa de duplicação	≤ 30%	30–50%	ruído, instabilidade de segmentação	ajustar biblioteca/entradas; considerar re-executar
Completude de bins (bins não mascarados com cobertura)	≥ 95%	90–95%	resolução eficaz em todo o lado	verificação de contaminação/mapeamento; sinalizar
resíduo de GC após correção (qualitativa)	baixo/plano	ondas moderadas	falsos positivos focais	apertar a normalização; aumentar o tamanho do bin
MAD de razões log2 (em todo o genoma)	≤ 0,25	0,25–0,35	segmentação falsa	aumentar o tamanho do bin; ajustar a segmentação
Frações de bins mascarados/na lista negra	≤ 10%	10–20%	interpretabilidade	anotar; evitar chamar em loci mascarados
Deslocamento de lote (deriva da razão log2 mediana)	~0	deriva consistente	comparabilidade de coortes	normalização consciente do lote; processo de auditoria

(Os pontos de partida são intencionalmente conservadores e devem ser personalizados por método de biblioteca, cobertura e referência.)

5.2 Tabela de resolução de problemas (sintoma → causa provável → solução)

Sintoma (o que você vê)	Causa provável	O que quebra	Corrigir / próxima ação
Padrão "onda" forte em muitos cromossomas	viés de GC, viés de biblioteca, efeito de lote	inflaciona falsos positivos em pequena escala	apertar a correção GC; verificar a consistência do protocolo; considerar bins maiores
Muitos segmentos curtos ("sobre-segmentação")	ruído demasiado alto para o tamanho de bin escolhido	CNVs focais espúrios	aumentar o tamanho do bin; aumentar as penalizações de segmentação; remover bins outliers
Grande fração de bins em falta/perto de zero	mapeamento deficiente, contaminação, configuração de alinhamento	reduz a resolução efetiva	verificar taxa de mapeamento; confirmar construção de referência; rever o corte; considerar nova execução
"Hotspots" de CNV recorrentes nos mesmos loci em muitas amostras	baixa mapeabilidade/repetições/artifícios	eventos falsos em toda a coorte	aplicar máscaras de mapeabilidade; regiões na lista negra; evitar interpretação lá
Um lote deslocado sistematicamente	efeito de lote / diferenças de lote de biblioteca	destrói a comparabilidade da coorte	normalização consciente do lote; reequilibrar lotes; auditar etapas de laboratório húmido
Chamada a nível de gene não suportada pelos vizinhos	bins informativos demasiado escassos; viés local	inferencia de locus não fiável	rótulo provisório; confirmar através de método direcionado/ortogonal

5.3 "Guarda-lamas" práticos de resolução (portões de regra prática)

Porque os grupos diferem, defina limiares validados. Diretrizes práticas para programas RUO:

Trate as chamadas a nível de cromossoma/braço como saídas primárias para triagem de baixo custo.
Trate chamadas de sub-megabase / nível de gene como de grau de hipótese, a menos que possa demonstrar:

vários contentores/probes adjacentes suportam a mudança,
residuais de GC baixos / artefatos de onda mínimos,
ruído genómico aceitável (MAD/variância estável),
o locus não está em contexto de baixa mapeabilidade/repetitivo.

Se o seu programa requer uma certeza consistente a nível de locus, incorpore isso no design (WGS mais profundo ou enriquecimento direcionado) em vez de forçar chamadas de genes a partir de sequenciação de baixa profundidade.

6. Estrutura de Decisão: Quando Usar O Que (e Quando Não Usar)

Lembrete de limite RUO (manter com esta secção):
Todas as recomendações aqui são destinadas a fluxos de trabalho de investigação, como QC de coorte, triagem exploratória, caracterização de modelos e desenvolvimento de métodos. As saídas de CNV e os limiares de QC devem ser interpretados como sinais analíticos para orientar experimentos subsequentes e a tomada de decisões internas em programas RUO. Não estão desenhados ou validados para reivindicações diagnósticas, prognósticas ou terapêuticas, e não devem ser usados para inferir resultados ou orientar ações clínicas. Para qualquer estudo que exija conclusões de nível de locus com alta confiança, planeie uma estratégia de confirmação apropriada (por exemplo, sequenciação de maior profundidade, enriquecimento direcionado ou ensaios de número de cópias ortogonais) e defina critérios de aceitação antes de escalar para milhares de amostras.

Módulo A: tabela de decisão de 1 minuto (método de escolha + relatório de nota)

Utilize esta tabela para escolher um método e definir expectativas sobre o que irá reportar como "nota de segmento" versus "nota de hipótese."

A sua pergunta principal	Método primário recomendado	Classificação de relatório típica	Acompanhamento comum (RUO)	Notas / armadilhas
CNA de cromossoma inteiro / braço em várias amostras	CNV de profundidade de leitura WGS de baixa frequência	Segmento de grau	nenhum ou controlo de qualidade aleatório	robusto ao ruído se o QC for estável
CNA de segmentos multi-Mb	WGS de baixa passagem + binagem/segmentação estável	Grau de segmento	confirmar casos extremos	tamanho do bin demasiado pequeno pode inflacionar FP
Ganho/perda a nível de gene focal necessário para decisões do programa	Enriquecimento WGS mais profundo ou enriquecimento direcionado	Gene-grade (se validado)	ensaio ortogonal	repetições/GC/mapeabilidade muitas vezes dominam
"Local interessante" do ecrã de passa-baixas	Filtro passa-baixas	Hipótese de grau	ensaio direcionado / MLPA / WGS mais profundo	não sobreinterpretes bins isolados
Caracterização a nível de ponto de interrupção	Sequenciação direcionada / leitura longa (dependente do caso)	Estrutura de grau	validação de junção conforme necessário	o mapeamento de pontos de interrupção necessita de evidências diferentes

Use WGS de passagem baixa quando:

o seu objetivo principal é a triagem ampla de CNA (análise de número de cópias) (cromossoma inteiro, braço, grandes segmentos)
precisas de alta capacidade de processamento em milhares de amostras
você quer dados que possam ser reutilizados posteriormente (CQ, estratificação, análises secundárias)
os critérios de aceitação podem ser definidos a nível de segmento/cromossoma

Evite depender apenas do WGS de baixa frequência quando:

as decisões dependem da confiança em CNV a nível genético
o locus encontra-se em repetições / duplicações segmentares / GC extremo
precisas interrupções ou deteção de eventos muito pequenos
tipos de amostras de coorte criam padrões de viés instáveis

Considere uma estratégia híbrida quando:

quer uma triagem ampla em grande escala, mas deve estar certa sobre um subconjunto
Exemplo: ecrã passa-baixas → confirmar selecionar locais através de sequenciação direcionada ou MLPA (RUO).

Perguntas Frequentes

1) O que é "número de cópias de genes" em termos práticos?

O número de cópias de genes é o número inferido de cópias de ADN que sobrepõem um gene. A maioria dos pipelines infere isso a partir de segmentos cujas fronteiras podem não corresponder às fronteiras dos genes—portanto, "CNV a nível de gene" é frequentemente uma interpretação de segmento, a menos que o ensaio forneça evidências densas de locos.

2) O WGS de baixa passagem pode detectar de forma fiável deleções/duplicaçõe a nível de genes?

Às vezes, mas não de forma consistente entre loci. O low-pass é mais forte para eventos amplos. A deteção a nível de gene depende da mapeabilidade do locus, GC, tamanho do bin e ruído. Se precisa de estar certo, planeie uma cobertura mais profunda ou uma confirmação direcionada.

3) O tamanho de bin menor melhora sempre a resolução?

Não. Caixas menores aumentam o detalhe espacial, mas também aumentam o ruído por caixa. Se a cobertura não for aumentada de forma correspondente, caixas menores podem produzir mais falsos positivos e segmentação instável.

4) Por que é que alguns loci apresentam "CNVs recorrentes" em muitas amostras não relacionadas?

Frequent artefatos técnicos: baixa mapeabilidade, repetições ou viés de referência. A recorrência em toda a coorte na mesma região é um forte sinal para usar máscaras/listas negras e tratar essa região com cautela.

5) Quais entregas devemos exigir para o trabalho de CNV do grupo?

No mínimo: gráficos genómicos abrangentes, tabelas de segmentos, resumos de QC e relatórios de máscara/lista negra. Para escala, solicitar painéis de QC de coorte e parâmetros padrão documentados (tamanho do bin, regras de segmentação, abordagem de normalização).

6) Como devemos lidar com chamadas de nível génico "tentativas" em pipelines RUO?

Rotule-os explicitamente como tentativos e encaminhe-os para um caminho de confirmação pré-definido (sequenciação direcionada, MLPA ou WGS de maior profundidade). Evite incorporar chamadas tentativas em decisões subsequentes sem confirmação.

7) Como se comparam os microarrays em termos de resolução a nível de gene?

Os arrays podem proporcionar uma maior densidade de locus em algumas regiões, mas a colocação de sondas é desigual e as regiões repetitivas continuam a ser difíceis. Os arrays e o WGS têm perfis de viés diferentes; a melhor escolha depende do tipo de pergunta e da escala da coorte.

8) Qual é a razão mais comum para os resultados de CNV diferirem entre lotes?

Efeitos de lote: alterações na preparação de bibliotecas, corridas de sequenciação ou manuseio de amostras que alteram os padrões de viés de cobertura. A solução é um controlo de qualidade rigoroso do lote, protocolos consistentes e normalização consciente do lote.

Referências

Klambauer G, Schwarzbauer K, Mayr A, et al. cn.MOPS: Mistura de Poissons para Descobrir Variações no Número de Cópias em Dados de Sequenciação de Nova Geração com uma Baixa Taxa de Descoberta Falsa. Nucleic Acids Research (2012). DOI: 10.1093/nar/gks003
Talevich E, Shain AH, Botton T, Bastian BC. CNVkit: Detecção e Visualização de Número de Cópias em Todo o Genoma a partir de Sequenciação de DNA Direcionada. PLOS Computational Biology (2016). DOI: 10.1371/journal.pcbi.1004873
Boeva V, Popova T, Bleakley K, et al. Control-FREEC: uma ferramenta para avaliar o número de cópias e o conteúdo alélico utilizando dados de sequenciação de nova geração. Bioinformática (2012). DOI: 10.1093/bioinformatics/btr670
Smolander J, Khan S, Singaravelu K, et al. Avaliação de ferramentas para identificar grandes variações no número de cópias a partir de dados de sequenciação do genoma completo com ultra-baixa cobertura. BMC Genomics (2021). DOI: 10.1186/s12864-021-07686-z
Chaubey A, Shenoy S, Mathur A, et al. Sequenciação Genómica de Baixa Passagem: Validação e Utilidade em 409 Casos… The Journal of Molecular Diagnostics (2020). DOI: 10.1016/j.jmoldx.2020.03.008

Serviços que pode estar interessado em

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.