What is CNV in the simplest correct definition?

A CNV is a change in DNA copy number of a genomic region, represented as a segment with an inferred CN state relative to a reference baseline.

Is copy number a gene property or a segment property?

It is primarily a segment property supported by bins/probes/reads; gene-level summaries are derived annotations.

How is CNV different from aneuploidy?

Aneuploidy refers to whole-chromosome or large-arm gains/losses; CNVs can be focal or large but are often described as regional segments.

What signals do arrays use for CNV calling?

Arrays rely on intensity-derived CN proxies and allelic signals (LRR/BAF), which are explicitly used in classic array CNV methods like PennCNV.

What signals does sequencing use?

Sequencing CNV calling commonly uses read depth; some pipelines incorporate allelic content and breakpoint evidence depending on data and design. cn.MOPS and Control-FREEC are representative methods.

Why do CNV artifacts appear in GC-rich or GC-poor regions?

GC bias distorts read depth; correction and residual checks are essential in sequencing-based CNV pipelines.

What should I request if I outsource CNV calling?

At minimum: segment table + QC pack (dispersion, GC residuals, callable fraction) + plots + documented reference design and masking policy.

Can exome sequencing support CNV inference?

It can, but coverage unevenness and capture bias can complicate CN inference. If you use exome-derived CN, be explicit about callable intervals and validation strategy.

O que é Variação no Número de Cópias (CNV)? Um Guia para Pesquisa Genómica

A variação no número de cópias (CNV) é um daqueles conceitos que parece simples—"mais ou menos cópias"—até que um programa de alto rendimento tente padronizá-lo em milhares de amostras, múltiplos lotes e várias utilizações subsequentes. Este guia é escrito para RUO (Uso Exclusivo em Pesquisa) fluxos de trabalho em genómica: triagem de coortes em escala populacional, controlo de qualidade da plataforma, monitorização da deriva de linhagens celulares e caracterização de modelos pré-clínicos. Foca-se em definições claras, o que os sinais realmente significam, QC/práticas de resolução de problemas práticas e entregáveis prontos para externalização.

Se está a escolher entre plataformas, compare. LP-WGS vs microarrays para rastreio escalável de CNVPara modelos de P&D oncológica pré-clínica (por exemplo, linhas celulares e modelos de xenotransplante de investigação) e interpretação de CNA, veja isto. guia de perfilagem de CNA pré-clínica.

1. CNV em Uma Página: Definições que Realmente Precisa

A número de cópias é um estado atribuído a um intervalo genómico: CN=0, 1, 2, 3, 4+ (e às vezes superior), dependendo do ensaio e do modelo de chamada. A CNV é uma mudança nesse estado em relação a uma linha de base de referência escolhida—mais comumente CN=2 para regiões diploides em um contexto de referência padrão.

Na prática, os CNVs são representados como segmentos (chromossoma, início, fim, comprimento, estado de CN inferido, confiança/QC) em vez de eventos de base única. Essa realidade a nível de segmento é a chave para tornar a chamada de CNV reprodutível e passível de controlo de qualidade em grandes programas. Uma revisão clássica resume os principais mecanismos e padrões recorrentes de mudança no número de cópias (ver Ref. 1).

1.1 O que significa "número de cópias" (nível de gene vs nível de segmento)

Mesmo quando a sua questão biológica é centrada no gene, a medição é quase sempre centrado no segmento:

CNV a nível de segmento"chr7: 55,20–55,45 Mb; CN≈1 (perda)"
Resumo da sobreposição de genes"o segmento sobrepõe-se aos exões do GENE1; resumo a nível de gene = semelhante a perda"

Por que isto é importante:

Os arrays medem a intensidade e os sinais alélicos em sondas.
As medidas de sequenciação avaliam a profundidade de leitura e (por vezes) o equilíbrio alélico em toda a extensão. caixas/janelas.
Ambos inferem um segmento "CN a nível de gene" é geralmente um derivado anotação, não uma medição primária.

Segment-level copy number states and gene overlap Figura 1. Estados de número de cópias a nível de segmento e sobreposição de genes. O número de cópias é atribuído a intervalos genómicos (segmentos) após normalização e segmentação; o "CN" a nível de gene é tipicamente uma anotação derivada com base na sobreposição e em bins/probes de suporte.

Se o seu programa base utiliza arrays, geralmente começa com um contrato consistente de laboratório molhado de array SNP + QC para que a variação de amostra para amostra não seja dominada pelo ruído do fluxo de trabalho. Para trabalho em coorte de alto rendimento, veja microarranjo SNP.

1.2 CNV vs CNA vs aneuploidia

Estes termos são frequentemente misturados no uso casual. Na prática de RUO, é útil mantê-los distintos:

Variação do Número de Cópias (VNC)uma alteração no número de cópias numa região genómica (deleção/duplicação/amplificação), utilizada de forma ampla em contextos de investigação populacional e de modelos.
CNA (Alteração do Número de Cópias): comumente utilizado em modelo de oncologia pré-clínica contextos para destacar alterações no número de cópias relacionadas à instabilidade genómica, subclonalidade e seleção em cultura.
Aneuploidiaganho/perda de cromossomas inteiros ou de grandes braços de cromossomas — alterações de número de cópias em grande escala distintas de CNVs focais.

Uma moldura prática: CNV é a medida geral.CNA é um rótulo de contexto utilizado intensamente na análise de modelos oncológicos, e aneuploidia é um resultado de tipo cariótipo em grande escala.

1.3 Classes típicas de CNV: deleções, duplicações, ampliações de múltiplas cópias

A maioria dos pipelines de CNV reporta:

Eliminações: CN=0 (perda homozigótica), CN=1 (perda de cópia única)
DuplicaçãosCN=3 (ganho de cópia única)
AmplificaçõesCN≥4 (ganho de múltiplas cópias; frequentemente resumido como "CN=4+" em triagens grosseiras)

Se consegue distinguir de forma fiável CN=4 de CN=5 (e acima) depende do modelo de sinal e qualidade dos dados. Em triagens de alto rendimento, é frequentemente mais robusto relatar estados grosseiros (e.g., "CN=4+") mais confiança/QC em vez de inteiros excessivamente precisos.

2. Como os CNVs Surgem e Porque São Importantes na Investigação

As CNVs podem surgir através de múltiplos mecanismos que ligam a arquitetura do genoma (repetições, duplicações segmentares) com processos de recombinação/replicação/reparo. O trabalho clássico de síntese enfatiza que a mudança no número de cópias não é um caso raro — é um resultado frequente de como os genomas se mantêm e rearranjam (ver Ref. 1).

2.1 Mecanismos (alto nível): NAHR, erros de replicação, rearranjos

Um mecanismo frequentemente ensinado é recombinação homóloga não alélica (RHNA), onde a recombinação ocorre entre sequências semelhantes que não são alelos, frequentemente produzindo deleções/duplicaçõe recorrentes em regiões ricas em repetições (ver Ref. 1).

A um nível operacional, o mecanismo importa porque prevê:

pontos quentes recorrentes (loci ricos em repetições/duplicaçõe)
regiões difíceis de analisar (baixa mapeabilidade para leituras curtas; baixa exclusividade de sondas para arrays),
e porque as definições de "região chamável" devem ser explícitas.

2.2 Impacto funcional: efeito da dosagem, mudanças de via, variabilidade fenotípica (nem sempre linear)

As CNVs podem afetar a função biológica através de dosagem (mais ou menos cópias) que podem alterar a expressão e os fenótipos a jusante. Mas a relação é frequentemente dependente do contexto e não linear—regulação, amortecimento, estado epigenético e estrutura de via modulam todos o resultado (ver Ref. 1).

Dosage effects are context-dependent Figura 2. Os efeitos da dosagem são dependentes do contexto. O número de cópias pode influenciar a expressão e os fenótipos subsequentes, mas o amortecimento, a regulação e o estado epigenético podem tornar a relação não linear—trate a CNV como uma hipótese de pesquisa que requer ensaios de seguimento.

Ao conceber um estudo RUO, isso incentiva uma mentalidade prática:

Utilize chamadas CNV como contexto genómico e sinais de QC (estratificação de linha de base, monitorização de desvio).
Trate "a dosagem implica fenótipo" como uma hipótese a testar com ensaios de seguimento, em vez de uma garantia.

Se planeia a integração de multi-ómicas (CNV + expressão + estado epigenético), mantenha o projeto global ancorado a uma coerente. estratégia de sequenciação genómica (amostragem, profundidade, design de lote e entregáveis).

2.3 Por que os CNVs são comuns em culturas celulares de longo prazo e sistemas de modelos pré-clínicos

Em sistemas cultivados a longo prazo e em muitos modelos pré-clínicos, os perfis de número de cópias podem variar sob seleção, stress e dinâmicas clonais. Nos fluxos de trabalho RUO, a caracterização de CNV é frequentemente utilizada para:

estabelecer um "estado genómico" de referência para um lote modelo,
monitorizar desvios entre passagens ou alterações de processos,
e detetar instabilidades em grande escala que possam confundir experimentos subsequentes.

3. Paisagem de Detecção de CNV: Arrays vs Sequenciação (Sinais em Primeiro)

Uma forma fiável de comparar métodos é ignorar os nomes das marcas e perguntar: que evidência o método utiliza?

A maioria das chamadas de CNV deriva de um ou mais de:

Sinal total (intensidade de array ou profundidade de leitura de sequenciamento)
Sinais de equilíbrio de alelos (e.g., BAF)
Evidência de ponto de interrupção (pares discordantes, leituras divididas, sinais de montagem local)

Evidence signals used for CNV calling by method Figura 3. Sinais de evidência utilizados para a chamada de CNV por método. Os arrays dependem da intensidade (LRR) e do equilíbrio alélico (BAF), enquanto o sequenciamento enfatiza a profundidade de leitura e pode adicionar evidências alélicas/ponto de quebra dependendo do design; a escolha do método é um compromisso entre resolução e rendimento.

3.1 Microarranjos (CMA/SNP arrays): forças e pontos cegos

As matrizes SNP fornecem dois sinais principais:

Rácio Logarítmico (LRR)desvio de intensidade total (proxy para número de cópias)
Frequência do Alelo B (FAB)proporção alélica (ajuda a interpretar padrões de desequilíbrio alélico)

Os algoritmos clássicos de CNV em array (por exemplo, PennCNV) formalizaram como combinar estes sinais para a inferência de CNV (ver Ref. 2).

Forças para programas RUO de alto rendimento

Convenções de laboratório e análise maduras
Processamento previsível por amostra
O BAF pode fornecer uma estrutura adicional além da intensidade total sozinha.

Pontos cegos típicos

Explorar lacunas de cobertura ou sondas com desempenho fraco em contextos genómicos específicos.
Limites de segmentos definidos pela densidade de sondas
Efeitos de lote que se manifestam como deslocamentos de base na intensidade

Se precisar de execução padronizada de laboratório húmido em array e entregas consistentes em grandes coortes, centralizando a execução através de serviços de microarranjos pode reduzir a variabilidade entre locais.

3.2 CNV baseado em sequenciação: profundidade de leitura, conteúdo alélico, sinais de quebra

A CNV baseada em sequenciamento geralmente começa com profundidade de leitura:

bin/janela o genoma,
contar leituras por bin,
normalizar (GC/mapeabilidade),
segmento,
inferir CN.

Um método representativo é cn.MOPS, que modelos leem contagens através de amostras para identificar CNVs com descobertas falsas controladas (veja a Ref. 3).

Quando o sequenciamento suporta a inferência de genótipos (ou tem sinal suficiente para abordagens conscientes de alelos), algumas ferramentas integram o conteúdo alélico. Control-FREEC é um exemplo bem conhecido que estima o número de cópias e o conteúdo alélico a partir de dados de NGS (ver Ref. 4).

A correção de viés é central: o viés GC e os efeitos de repetição/mapeabilidade podem distorcer a profundidade de leitura. O guia do utilizador do CNVkit fornece uma visão prática das fontes de viés e das estratégias de correção utilizadas em pipelines reais.

Se o seu programa CNV é baseado em sequenciação, o modelo de serviço mais comum é geralmente sequenciação do genoma completo para perfilagem de CNV emparelhado com um contrato de análise que especifica os resultados de CNV e gráficos de QC.

3.3 Por que o WGS de baixa passagem está a ser cada vez mais utilizado para triagens escaláveis

Para rastreio de CNV em escala de coorte, WGS de passagem baixa (LP-WGS) é popular porque espalha a medição por todo o genoma e pode ser ajustado por:

profundidade,
tamanho do bin,
design de referência,
e limiares de QC.

O ponto prático: na LP-WGS, a resolução eficaz é limitada pelo QC, não limitado ao marketing. Você obterá melhores resultados ao definir explicitamente:

quais tamanhos pretende chamar,
quais regiões são chamáveis,
quais métricas de confiança são necessárias,
e como os lotes são estruturados.

Se está a escolher entre plataformas, compare. LP-WGS vs microarrays para rastreio escalável de CNVSe a sua equipa precisar de detalhes de implementação para a chamada de CNV em LP-WGS, veja Bioinformática para WGS de Baixa Cobertura: Implementação de cn.mops e pipelines.

4. Interpretação dos Resultados de CNV em Fluxos de Trabalho RUO

O maior modo de falha em programas de CNV não é o chamador—é a deriva de interpretação: diferentes equipas interpretam a mesma lista de segmentos de forma diferente. Você previne isso ao padronizar o que significam "resolução", "confiança" e "chamabilidade".

4.1 O que "resolução" realmente significa (tamanho do bin, densidade de sondas, região chamável)

Na prática de RUO, a resolução não é um número único. É a interseção de:

Granularidade da medição: espaçamento de sondas (arrays) ou tamanho de bin/janela (sequenciação)
Região chamávelQuais partes do genoma são analisáveis, dado a unicidade/mapeabilidade e filtros de controlo de qualidade.
Piso de ruídoefeitos de lote + variabilidade da biblioteca + qualidade da normalização

Uma definição prática útil para documentos de programa:

Resolução eficaz é o menor tamanho de CNV que permanece estável sob QC e reprocessamento na sua linha de produção.

Se quiser uma discussão mais aprofundada sobre os limites da interpretação a nível de gene em comparação com as chamadas a nível de cromossoma, veja CNV a Nível de Gene vs. CNV Cromossómico: Compreender a Resolução e Limites.

Para designs focados em locais/intervalos definidos, sequenciação de regiões alvo pode apoiar questões mais específicas—basta ser explícito sobre como as lacunas e o viés de captura afetam a inferência de CN.

4.2 Artefatos comuns: viés de GC, repetições, problemas de mapeabilidade (e como detectá-los)

viés de GC frequentemente apresenta-se como "ondas" sistemáticas na profundidade de leitura em regiões ricas ou pobres em GC; uma correção robusta deve nivelar as tendências de profundidade em relação ao GC. A documentação de correção de viés do CNVkit resume os viéses comuns e como são corrigidos na prática.

Repetições e baixa mapeabilidade fazer com que os bins/probes se comportem de forma imprevisível. Na sequenciação, o mapeamento ambíguo pode aumentar a profundidade; nas matrizes, a exclusividade do probe pode degradar. Mitigações duráveis incluem:

definindo uma máscara chamável,
excluindo contentores/probes de baixa qualidade antes da segmentação,
marcando segmentos que sobrepõem regiões problemáticas como "interprete com cautela,"
e exigindo limiares de evidência mais rigorosos para interpretação em contextos de repetição densa.

4.3 O que reportar: segmentos, métricas de confiança e entregáveis prontos para externalização

Um pacote de entregáveis de CNV em escala de coorte que seja realmente utilizável deve incluir:

A) Tabelas de segmentos principais

chr, início, fim, comprimento
estado CN inferido (ou proxy de razão log2)
pontuação(s) de confiança ou posterior do modelo
flags de região chamável (por exemplo, % bases mascaradas; sobreposição com baixa mapeabilidade)

B) Pacote de QC

métricas de dispersão de cobertura/intensidade por amostra
Gráfico de viés GC (antes/depois da correção)
estatísticas resumidas de segmentação (número de segmentos; distribuição de tamanhos)
métricas de comparabilidade a nível de lote (mudanças de distribuição entre execuções)

C) Gráficos

perfil genómico abrangente por amostra (ou representativa)
gráficos de zoom a nível de cromossoma para grandes eventos
resumos da carga de CNV a nível de coorte

Se você terceirizar a análise de CNV, defina explicitamente. Entregáveis de chamada de CNV e QC como parte do âmbito, e requer um contrato de relatório reproduzível (ficheiros + métricas + gráficos). Para suporte de análise de ponta a ponta, veja Serviços de Bioinformática.

Para programas de operações de grande escala, padronize a entrada e os metadados desde o início: diretrizes de submissão de amostras (PDF) inclui metadados de entrada e requisitos de envio.

5. QC e Resolução de Problemas (Operacional, Orientado a Limiares)

Você pediu os limiares de QC; para CNV, limiares absolutos universais são difíceis porque dependem da plataforma, profundidade, binagem e design de coorte/lote. A abordagem mais robusta em pipelines RUO é QC baseado em distribuição (comparar cada amostra às distribuições da coorte) mais um pequeno conjunto de verificações específicas da plataforma.

5.1 Portões de QC que pode implementar sem sobreajuste

Portas de QC multiplataforma

Dispersão de outliers: sinalizar amostras com variância de bin/probe incomumente alta (por exemplo, cauda superior da distribuição de variância).
residual de viés GCApós a correção, a correlação do sinal GC deve ser substancialmente reduzida (utilize os resíduos de correlação/ajuste como um critério de aceitação).
Sanidade do segmentoContagens extremas de segmentos geralmente indicam ruído (demasiados) ou suavização excessiva (demasiado poucos). Acompanhe a distribuição da contagem de segmentos por lote.
Frações chamáveis: requer uma cobertura mínima da região chamável; marcar amostras de baixa chamada como "apenas triagem / baixa confiança."
Replicar concordância (se disponível): eventos em grande escala devem ser reproduzidos em réplicas técnicas.

Verificações específicas de array

Base estável de LRR e estrutura de BAF (ver Ref. 2).

Verificações específicas de sequenciamento

Uniformidade de profundidade e comportamento de duplicação; padrões de mapeamento/cobertura consistentes em todo o lote.

Se o seu programa precisa de um rendimento previsível e de uma execução padronizada a montante para grandes volumes de amostras, combinar a triagem de CNV com um fluxo de trabalho de execução NGS consistente pode ajudar (por exemplo, Sequenciação de Próxima Geração).

5.2 Tabela de resolução de problemas (Sintoma → causa provável → solução)

Sintoma	Causa provável	Corrigir (próximas ações)
Muitos segmentos curtos em todo o genoma	ruído elevado; normalização fraca; efeitos de lote	aumentar o tamanho do bin (sequenciação) ou apertar o QC das sondas (arrays); reconstruir a referência; remover amostras outlier; normalização consciente de lote
Padrões de "onda" alinhados com os extremos de GC	viés residual de GC	reajustar a correção GC; garantir que a coorte de referência corresponda à biblioteca/lote; confirmar a política de mascaramento
Chamadas enriquecidas em repetições/duplicações segmentares	baixa mapeabilidade/unicidade da sonda	mascarar bins/probes de baixa mapeabilidade; anotar segmentos com flags chamáveis; exigir evidência mais forte para interpretação
Os desvios de linha de base diferem entre as execuções.	mudanças a nível de lote	referências conscientes de lote; equilibrar coortes; incluir amostras de controlo/referência consistentes por lote
As réplicas discordam para grandes eventos	amostra de QC ou instabilidade do pipeline	mapeamento de auditoria e uniformidade de cobertura; verificar parâmetros de segmentação; investigar trocas de amostras/desajuste de metadados
As declarações a nível de gene não correspondem às evidências do segmento.	resolução de mal-entendidos	relatório do segmento primeiro; derive resumos de sobreposição de genes apenas com bins/probes de suporte adequados; vincular partes interessadas à explicação da resolução

6. Estrutura de Decisão: Quando Usar a Chamada de CNV (e Quando Não Usar)

Abaixo está um atalho prático para a seleção de métodos, projetado para equipas multifuncionais (laboratório húmido + bioinformática + operações de programa). Utilize-o para escolher uma plataforma de "primeira passagem" e alinhar expectativas. resolução eficaz, rendimento e reutilização a montante. Em seguida, confirme a escolha com um pequeno piloto que mede a dispersão de QC, os resíduos de GC e a estabilidade do segmento durante o reprocessamento.

Seleção rápida de método (pré-seleção de 30 segundos)

Objetivo / restrição	Melhor opção de primeira passagem	Por que se encaixa	Atenções
Cohortes muito grandes; custo + rendimento priorizados; linha de base genómica.	LP-WGS CNV (primeiro por profundidade de leitura)	escalável, reutilizável, ajustável para binning/QC	a resolução eficaz é limitada pelo QC; o design do lote importa
Genotipagem padronizada + CNV a partir da intensidade/BAF em coortes	Arrays SNP (LRR/BAF)	fluxos de trabalho maduros, convenções estáveis	gaps de sondagem; mudanças na intensidade do lote
Painéis de loci direcionados; CN dentro de regiões definidas	Sequenciação direcionada	focar recursos em locais de interesse	captura de viés; cobertura desigual; efeitos de lacuna
Necessita de um contexto estrutural rico em pontos de interrupção.	sequenciação com evidência de ponto de quebra (dependente do design)	pode adicionar evidências de leitura dividida/discordantes	as regiões repetitivas continuam difíceis; necessitam de mapeamento/controlo de qualidade cuidadoso

Quando a análise de CNV é uma boa opção para RUO

Triagem inicial da coorte para bases de dados de investigação em escala populacional e reutilização
QC de linhagem/modelo celular e monitorização de deriva através de passagens/lotes
Caracterização de modelos oncológicos pré-clínicosonde a instabilidade do número de cópias é parte da biologia do modelo

Quando a chamada de CNV provavelmente será frustrante.

Você precisa de pontos de interrupção precisos em regiões com muitas repetições usando sinais esparsos.
Precisas de eventos muito pequenos de alta confiança sem uma estratégia de profundidade/binagem suficiente.
Não é possível controlar ou modelar a estrutura do lote e o design de referência.

Uma lista de verificação prática "avançar/não avançar" para líderes de programas:

Pode definir uma máscara de região chamável e aceitação de QC?
Consegue equilibrar ou pelo menos modelar efeitos de lote?
Pode padronizar os entregáveis para que as equipas a jusante não reinterpretem os resultados de forma ad hoc?

7. Casos de Uso Comuns de RUO

7.1 Triagem de coorte de alto rendimento / linhas de base de genómica populacional

Para grandes coortes, os objetivos operacionais são:

throughput previsível,
baixa taxa de repetição,
taxas de aprovação de QC estáveis,
e reutilização de dados em análises futuras.

Definir cedo:

tamanhos de CNV que pretende detetar,
Métricas de QC que definem a aceitação,
e entregáveis que os consumidores precisam (segmentos + pacote de QC + gráficos).

7.2 Controlo de qualidade da linha celular e monitorização de desvios

Um padrão de monitorização prático:

perfil basal de CN em passagem inicial,
reperfilagem periódica após alterações significativas no processo,
regras de alerta ligadas a mudanças em grande escala em vez de chamadas pontuais.

A padronização de plataformas e relatórios melhora a comparabilidade ao longo do tempo; mantenha as expectativas de fluxo de trabalho e os resultados consistentes com as capacidades da sua plataforma (veja Visão Geral da Plataforma).

7.3 Modelos oncológicos pré-clínicos (instabilidade do número de cópias e interpretação de CNA)

Em modelos de P&D oncológica pré-clínica, os perfis de CN/CNA são utilizados para:

compare lotes e históricos de passagens,
interpretar mudanças a nível de via sob seleção,
comunicar a comparabilidade dos modelos entre equipas.

Para a moldura de interpretação de CN em DNA vs expressão, veja Validação de CNV em RNA-Seq: Por que o Sequenciamento de DNA é Essencial.

8. Perguntas Frequentes

CNV é a sigla para "Variação no Número de Cópias", referindo-se a alterações no número de cópias de segmentos de DNA em um genoma.
Uma CNV é uma mudança no número de cópias de DNA de uma região genómica, representado como um segmento com um estado CN inferido em relação a uma linha de base de referência.

2) O número de cópias é uma propriedade do gene ou uma propriedade do segmento?
É principalmente um propriedade de segmento suportado por bins/probes/reads; os resumos a nível de gene são anotações derivadas.

3) Como é que a CNV difere da aneuploidia?
Aneuploidia refere-se a cromossoma inteiro ou braço grande ganhos/perdas; as CNVs podem ser focais ou grandes, mas são frequentemente descritas como segmentos regionais.

4) Que sinais é que os arrays utilizam para a chamada de CNV?
Os arrays dependem de proxies de CN derivados da intensidade e sinais alélicos (LRR/BAF), que são utilizados explicitamente em métodos clássicos de CNV de array, como o PennCNV (ver Ref. 2).

5) Que sinais utiliza a sequenciação?
A chamada de CNV por sequenciação utiliza comumente profundidade de leituraAlguns pipelines incorporam conteúdo alélico e evidências de quebra dependendo dos dados e do design. O cn.MOPS e o Control-FREEC são métodos representativos (ver Ref. 3–4).

6) Por que é que os artefatos de CNV aparecem em regiões ricas ou pobres em GC?
O viés GC distorce a profundidade de leitura; a correção e os testes residuais são essenciais em pipelines de CNV baseados em sequenciação.

7) O que devo solicitar se subcontratar a chamada de CNV?
No mínimo: tabela de segmentos + pacote de QC (dispersão, resíduos de GC, fração chamável) + gráficos + design de referência documentado e política de mascaramento.

8) A sequenciação do exoma pode apoiar a inferência de CNV?
Pode, mas a desigualdade de cobertura e o viés de captura podem complicar a inferência de CN. Se utilizar CN derivado de exoma, seja explícito sobre os intervalos chamáveis e a estratégia de validação. Para opções de sequenciação, veja Sequenciação do Exoma Completo.

Referências:

Hastings PJ, Lupski JR, Rosenberg SM, Ira G. "Mecanismos de alteração no número de cópias de genes." Nat Rev Genet (2009). DOI: 10.1038/nrg2593
Wang K, Li M, Hadley D, et al. "PennCNV: um modelo oculto de Markov integrado projetado para a deteção de variações no número de cópias em dados de genotipagem SNP de genoma completo." Pesquisa Genómica (2007). DOI: 10.1101/gr.6861907
Klambauer G, Schwarzbauer K, Mayr A, et al. "cn.MOPS: mistura de Poissons para descobrir variações no número de cópias em dados de sequenciação de nova geração com uma baixa taxa de falsos positivos." Pesquisa em Ácidos Nucleicos (2012). DOI: 10.1093/nar/gks003
Boeva V, Popova T, Bleakley K, et al. "Control-FREEC: uma ferramenta para avaliar o número de cópias e o conteúdo alélico utilizando dados de sequenciação de nova geração." Bioinformática (2012). DOI: 10.1093/bioinformatics/btr670
Talevich E, Shain AH, Botton T, Bastian BC. "CNVkit: Detecção e Visualização de Número de Cópias em Todo o Genoma a partir de Sequenciação de DNA Alvo." PLOS Biologia Computacional (2016). DOI: 10.1371/journal.pcbi.1004873
Correções de viés para GC, repetições e densidade de alvos. cnvkit.readthedocs.io/pt-PT/stable/bias.html

Serviços que pode estar interessado em

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.