Métodos de Detecção e Aplicações de Mutacões CNV
O que é CNV?
A Variação no Número de Cópias (CNV) refere-se à amplificação ou redução de grandes segmentos dentro de um genoma, compreendendo dois tipos principais: deleção e duplicação. Esta variação estrutural genómica modula a plasticidade de uma entidade biológica através de alterações na dosagem genética e na arquitetura transcricional. A CNV atua como um pilar das bases genéticas que contribuem para a diversidade fenotípica e a adaptação evolutiva tanto a nível individual como populacional.
Dentro de um genoma, as formas de variação de CNV abrangem predominantemente a amplificação, deleção e múltiplas repetições de segmentos únicos, sendo a duplicação segmentar (SD) a mais prevalente. Caracteristicamente, as duplicações segmentares apresentam mais de 90% de homologia de sequência entre diferentes cópias. Uma análise comparativa genómica intra-espécie pode efetivamente descobrir CNVs que impactam substancialmente o fenótipo. Presentemente, os CNVs são definidos como variações insercionais ou deletérias de sequências genómicas que variam de 50 pares de bases (pb) até 5 mega pares de bases (Mb).
Mecanismos de Formação de CNV
As CNVs representam uma forma de variações estruturais genómicas, que podem ser classificadas em dois níveis com base na sua escala: o nível visível e o nível sub-visível. O nível visível das variações estruturais genómicas manifesta-se principalmente como aberrações cromossómicas que são observáveis ao microscópio. Estas incluem poliploides ou aneuploides, deleções, inserções, inversões, translocações e variantes de locais frágeis, entre outras variações estruturais. Os CNVs no genoma podem apresentar-se de várias formas: ambos os cromossomos homólogos exibem simultaneamente uma redução no número de cópias; um cromossomo homólogo está sem cópias enquanto o outro é normal; um cromossomo homólogo apresenta duplicação do número de cópias enquanto o outro é normal; um cromossomo homólogo está sem cópias enquanto o outro apresenta duplicação do número de cópias; ambos os cromossomos homólogos exibem simultaneamente duplicação do número de cópias.
Por outro lado, as variações estruturais genómicas a nível sub-visível referem-se a variações estruturais de segmentos de DNA dentro da faixa genómica de 1Kb-3Mb. Estas incluem deleções, inserções, duplicações, rearranjos, inversões e alterações no número de cópias de DNA, coletivamente conhecidas como CNVs. Inicialmente, as CNVs foram identificadas nos genomas de pacientes. No entanto, investigações subsequentes confirmaram a sua presença generalizada mesmo na população normal, indicando que são um conjunto de alterações estruturais genómicas de significado clínico benigno, patogénico ou desconhecido. Neste momento, os mecanismos precisos de formação das CNVs permanecem pouco claros, mas podem envolver mecanismos de Recombinação Homóloga Não-Alélica (NAHR) e Ligação de Extremidades Não-Homólogas (NHEJ).
Diferentes tipos de variações no número de cópias (CNVs) e um exemplo de deteção genómica de CNVs.
Métodos de Detecção de CNV
A deteção de CNVs, as abordagens prevalentes podem ser bifurcadas em duas categorias amplas: aquelas destinadas à deteção de CNVs desconhecidos em todo o genoma e aquelas direcionadas a CNVs conhecidos específicos de loci. Para a deteção genómica de CNVs desconhecidos, as técnicas comuns incluem métodos de chip e métodos de sequenciação.
Os métodos de chip abrangem principalmente arrays de Hibridização Genómica Comparativa (aCGH) e arrays de Polimorfismos de Nucleótido Único (SNP arrays). Por outro lado, os métodos de sequenciação de DNA incluem principalmente a sequenciação do genoma completo (WGS) e a sequenciação de leituras longas ao nível de moléculas únicas.
Serviço que pode interessá-lo
Métodos para a identificação em todo o genoma de variações no número de cópias (CNVs).
aCGH
aCGH é uma técnica biotecnológica utilizada para detectar variações no número de cópias de DNA entre duas amostras. O mecanismo operacional é o seguinte: quantidades iguais de DNA de teste e DNA de controle normal são marcadas com corantes fluorescentes vermelhos e verdes (como Cy5/Cy3), respetivamente. Estas amostras são então misturadas e hibridizadas competitivamente com um microarray de DNA de genoma completo. Após a hibridização, o microarray é escaneado usando um laser, permitindo a análise da intensidade de luminosidade dos pontos vermelhos e verdes. Consequentemente, isso permite a detecção de CNVs, proporcionando uma perspectiva abrangente e global do genoma.
array SNP
O array SNP a tecnologia emprega uma abordagem de hibridização única, na qual a amostra de DNA em investigação interage com o conjunto de sondas colocado na matriz. Esta técnica determina o número de cópias em cada local específico, contrastando as intensidades de sinal entre diferentes amostras. Neste contexto, as sondas de SNP-array são sequências derivadas de locais de SNP, permitindo a provisão de informações críticas sobre SNP. Além de detectar CNVs, este método possui a vantagem distinta de identificar disomia uniparental (UPD), perda de heterozigosidade (LOH) e mosaicismo, ampliando assim o escopo da análise genética.
CNV-seq
A tecnologia CNV-seq utiliza sequenciação de alto rendimento para realizar sequenciação de genoma completo a baixa profundidade do DNA da amostra. Os resultados da sequenciação são então comparados com uma sequência base do genoma humano de referência. Através análise bioinformáticaAs CNVs dentro das amostras testadas podem ser revelados.
WGS
WGS, utilizando plataformas de sequenciação de alto rendimento, realiza a sequenciação de todos os genes no genoma de um organismo, determinando as sequências de bases de DNA. Permite a deteção de uma gama completa de mutações a nível do genoma inteiro, incluindo Variantes de Nucleotídeo Único (SNVs), inserções e deleções (InDels), Variações no Número de Cópias (CNVs) e Variações Estruturais (SVs). No entanto, as limitações das tecnologias de WGS residem nos seus altos custos de deteção, no vasto volume de dados gerados e no considerável desafio na análise de dados.
WES
Sequenciação do Exoma Completo (WES) é um método de análise genómica que utiliza tecnologia de captura de sequências para extrair e enriquecer DNA de toda a região do exoma de um genoma para sequenciação de alto rendimento. Comparado com WGS, WES é mais rentável e vantajoso para estudar SNP, INDEL, etc. de genes conhecidos. As limitações da tecnologia WES incluem captura desigual, menor cobertura de áreas não codificantes, menor precisão na deteção de CNV e potencial para resultados falso-negativos e falso-positivos.
No entanto, os relatórios sobre a utilização de WES para a deteção de CNV estão a tornar-se cada vez mais prevalentes. Esta tendência é provavelmente atribuível à otimização de algoritmos bioinformáticos e ao aumento da profundidade de sequenciação. Para mitigar efetivamente o impacto de erros sistemáticos, como o conteúdo de GC e a captura de sequências, a maioria dos softwares utilizados para a análise de WES necessita de amostras de referência. Ao contrastar estas amostras de referência com as amostras de teste, podem ser identificadas discrepâncias, contornando assim a influência de erros sistemáticos. Na investigação oncológica, o CNV somático pode ser determinado comparando amostras de tecido tumoral com amostras de tecido normal.
Conteúdo da Análise de CNV
Os resultados de numerosos estudos confirmaram uma relação estreita entre CNV e doenças complexas humanas, bem como características económicas chave em animais e plantas. Comparados com SNPs de base única, os CNVs possuem comprimentos mais longos, cobrem uma gama mais ampla de sequências genéticas e têm o potencial de alterar fenótipos através de efeitos de dosagem genética. Com a crescente precisão, aumento da produção de dados e diminuição do custo de sequenciação do genoma completoa deteções de CNV em larga escala de alto rendimento têm avançado rapidamente. Além disso, com o contínuo aperfeiçoamento de Estudos de Associação Genómica em Larga Escala (GWAS) Métodos e condições estão a ser criados para a escavação de CNVs mais fiáveis e funcionalmente relevantes através de CNV-GWAS. Isto abre caminho para a exploração subsequente dos mecanismos moleculares de CNV relevantes fenotipicamente e a sua aplicação no campo da reprodução.
Serviço que pode interessá-lo
Resultados e Estatísticas da Detecção de CNV
A análise dos resultados da deteção de CNVs e das estatísticas associadas, retratada de forma precisa através de gráficos de colunas, ilustra a distribuição de vários CNVs em diferentes comprimentos de fragmentos. Como mostrado na figura referenciada, um total de 51.461 eventos de CNV (uma média de 24.729 eventos de ganho e 26.732 eventos de perda) foram identificados entre os 48 indivíduos analisados. A contagem média de CNVs por indivíduo foi de 1072, com uma distribuição aproximada de 557 eventos de ganho e 515 eventos de perda. O número médio de eventos específicos de CNV por indivíduo foi registado como 107.
Figura 2 Distribuição do intervalo de tamanho de CNV
Mapa do Genoma Completo CNVR
A região CNV (CNVR) refere-se a uma área sobreposta de CNVs detetados entre diferentes indivíduos. Os CNVs sobrepostos são integrados e combinados em um único CNVR. Como mostrado na Figura 3, os CNVs de 47 vacas foram fundidos, identificando um total de 1.043 CNVRs, cobrindo coletivamente 44,63 Mb, o que representa aproximadamente 2,06% da sequência do genoma típico da vaca. A distribuição dos CNVRs conhecidos nos cromossomas é mostrada na Figura 3, onde 702 são do tipo perda, 270 são do tipo ganho e 71 pertencem ao tipo complexo (ambos, CNVR contendo simultaneamente ganho e perda). A quantidade de CNVs do tipo perda é aproximadamente 2,6 vezes a de ganho. Em relação ao comprimento, o CNVR mais longo tem 2.111.937 bp, e o CNVR mais curto tem 3.600 bp. Este estudo elaborou um mapa preciso de CNVRs de genoma completo para vacas Holstein.
Figura 3 Distribuição genómica dos CNVRs
Estrutura Genética da População e Diversidade Genética
A investigação da estrutura genética e diversidade dentro das populações das espécies de Caprinae foi realizada utilizando um conjunto genómico de polimorfismos de nucleotídeo único (SNPs) identificados em autossomas, a partir dos quais foram calculadas distâncias genéticas entre indivíduos. Uma árvore filogenética construída utilizando o método Neighbor-Joining (NJ) (Fig. 5B) distinguiu o Bezoar - uma estirpe de cabra selvagem iraniana - e as cabras domésticas como ramos distintos, com estas últimas a subagruparem-se por origem geográfica.
A análise da estrutura genética utilizando o software ADMIXTURE (Fig. 5C) revelou uma diferenciação em três linhagens principais quando K=3 para as populações de cabras Bezoar e domésticas. Com K=6, foram observadas quatro linhagens significativas dentro das populações de cabras domésticas. Para delinear ainda mais a estrutura genética inerente a estas cabras domésticas, foi realizada uma Análise de Componentes Principais (PCA) com os dados SNP destas populações (Fig. 5D). Os resultados foram intrigantes - PC1 e PC2 categorizaram as populações domésticas em quatro subgrupos individuais com base nas origens geográficas: cabras domésticas europeias (EUR), cabras domésticas africanas (AFR), cabras domésticas do sudoeste asiático (SWA-SAS) e cabras domésticas do leste asiático (EAS).
Figura 5 Distribuição geográfica e afinidades genéticas de cabras selvagens e domésticas
Análise de Estudo de Associação Genómica (GWAS) Baseada em CNVs
Utilizando características de traços e genótipos de CNV, aplicamos vários modelos para realizar a análise GWAS. Após a conclusão da análise GWAS através destes diferentes modelos, são utilizados gráficos QQ para comparar a distribuição dos valores P reais e dos valores P teóricos sob diferentes cenários, a fim de determinar os resultados de análise ótimos. Após a determinação do modelo ótimo, são aplicadas correções para múltiplos testes para confirmar os limiares significativos de valores P. Isso permite a seleção de regiões significativas e a filtragem de genes associados a loci de CNV. Depois de obter estes genes candidatos, realizamos a anotação funcional e a análise de enriquecimento. Como mostrado na Figura 6, a nossa análise GWAS baseada na herdabilidade da sobrevivência de leitões e CNVs detectou 16 regiões localizadas nos cromossomos 2, 3, 4, 11, 12, 13, 14, 15, 16 e 17, respetivamente, representando 22,54% da variância do fenótipo genético.
Figura 6 Gráfico de Manhattan da Análise GWAS do Traço Número de Leitões Sobreviventes
Regiões significativas das análises de GWAS e CNVR foram determinadas em SSC2, SSC3, SSC12 e SSC17, que contêm coletivamente 56 genes codificadores. Estes genes, como mostrado na Tabela 1, afetam o número de leitões sobreviventes através da variação na dosagem genética.

Análise Vst
Vst (estatísticas de variantes), semelhante ao Fst, serve como uma medida estatística da extensão das diferenças de CNVR entre populações. O cálculo utiliza a fórmula Vst = (Vt - Vs) / Vt, onde Vt representa o desvio padrão do número de cópias na região para todas as amostras, e Vs representa a soma dos desvios padrão individuais das duas populações, cada um ponderado de acordo com o tamanho da população. Os valores de Vst variam de 0 a 1; um valor mais alto indica uma maior divergência na variante do número de cópias no grupo, enquanto um valor mais baixo implica o oposto.
Como mostrado na Figura 7, o valor médio de Vst para CN vs WL é 0,11, assim como o valor para CN vs RIR, enquanto a comparação WL vs RIR resulta num Vst médio de 0,15, sugerindo um maior grau de divergência. Além disso, ao selecionar genes de CNVRs onde Vst > 0,79 e realizar uma análise de anotação funcional e enriquecimento, encontramos um envolvimento principal no desenvolvimento de órgãos, metabolismo e regulação imunológica. Esta pesquisa oferece valiosas informações sobre as caracterizações genéticas de aves de capoeira ao nível de CNV, potencialmente fornecendo informações úteis para estratégias de reprodução de frangos.
Figura 7 Gráfico de Manhattan dos valores Vst genómicos para distintos grupos de galinhas
Análise Bayescan
A análise Bayescan é utilizada no presente estudo. O Bayescan utiliza métodos bayesianos e a distribuição empírica de Fst para detectar marcadores outliers, uma técnica normalmente aplicada na seleção de locos diferenciais em grupos comparativos com informações geográficas ou de outro tipo de agrupamento distintas. Nesta pesquisa, com base nas informações de agrupamento do conjunto de amostras, o Bayescan foi utilizado para a deteção de locos diferenciais.
Após a conclusão do processo de deteção, foram realizadas avaliações de convergência iterativa e filtragem de outliers utilizando scripts em R. Os outliers detetados foram então considerados como candidatos a CNVRs (Regiões de Variação do Número de Cópias). A Figura 8 apresenta o resultado da deteção de outliers pelo Bayescan:

Referências:
- Lupski JR, Stankiewicz P. Desordens genómicas: mecanismos moleculares para rearranjos e fenótipos transmitidos. PLoS Genética. Dez 2005;1(6):e49.
- Implicações clínicas das variações no número de cópias em distúrbios autoimunes FAU - Yim, Seon-Hee FAU - Jung, Seung-Hyun FAU - Chung, Boram FAU - Chung, Yeun-Jun. J Intern Med Coreano, 2015. 30(3): p. 294-304.
- Liu, M., Fang, L., Liu, S. et al. Detecção de regiões CNV baseada em Array CGH e sua potencial associação com a reprodução e outros traços económicos em Holstein. BMC Genómica 20, 181 (2019).
- Stafuzza, N.B., Silva, R.M.d., Fragomeni, B.d. et al. Uma análise de polimorfismos de nucleotídeo único e variação no número de cópias em todo o genoma para o número de leitões nascidos vivos. BMC Genómica 20, 321 (2019).
- Seol D, Ko BJ, Kim B, Chai H-H, Lim D, Kim H. Identificação de Variação no Número de Cópias em Galinhas Domésticas Usando Sequenciação de Genoma Completo Revela Evidências de Seleção no Genoma. Animais. 2019; 9(10):809.
- Kvist L, Honka J, Niskanen M, et al. Seleção no Finnhorse, uma raça de cavalo nativa de uso geral. Revista de Reprodução Animal e Genética, 2020.
- Wang, H., Chai, Z., Hu, D. et al. Uma análise global de CNVs em diversas populações de iaques utilizando re-sequenciamento de genoma completo. BMC Genómica 20, 61 (2019).
- Zhuqing Zheng et al., A origem dos genes de domesticação em cabras. Sci. Adv.6,eaaz5216(2020).