Serviço de Análise de Dados de Sequenciamento do Exoma Completo

O sequenciamento do exoma é um método de análise genómica que utiliza tecnologia de captura de sequências para capturar e enriquecer o DNA nas regiões exónicas de todo o genoma, seguido de sequenciamento de alto rendimento. Ao sequenciar apenas cerca de 2% de todo o genoma, o sequenciamento do exoma pode fornecer informações sobre mais de 95% das regiões funcionais conhecidas, incluindo 95% das mutações patogénicas associadas a doenças mendelianas e vários loci de suscetibilidade a doenças. Portanto, o sequenciamento do exoma tornou-se um método comum para testes genéticos relacionados com doenças, amplamente utilizado na identificação de genes causadores e genes de suscetibilidade para doenças complexas.

Filtragem de Variantes, Classificação e Análise Estatística

1) Filtragem de Variantes SNP e InDel

As variantes SNP e InDel passam por um processo de filtragem com base nos seguintes critérios: Taxa de chamada >= 10%: Variantes com uma taxa de chamada inferior a 10% são filtradas; Frequência do alelo menor < 0,05: Variantes com uma frequência do alelo menor inferior a 0,05 são filtradas; Locais fora do equilíbrio de Hardy-Weinberg (HWE): Variantes que não estão em conformidade com o HWE, indicadas por um valor P do HWE inferior a 0,001, são filtradas.

Após a aplicação destes critérios de filtragem, as variantes restantes são selecionadas para análise e interpretação adicionais.

Filter SNP siteFigura 1: Filtrar local SNP

2) Cálculo de Frequência

O cálculo de frequência envolve determinar as frequências de alelos e genótipos para cada variante nos grupos de caso e controlo.

Nesta etapa, as frequências de diferentes alelos e genótipos são calculadas separadamente para os grupos de caso e controlo. Estas frequências fornecem informações valiosas sobre a distribuição e ocorrência de variantes genéticas específicas dentro da população estudada.

3) Análise de Associação

Na análise de associação, são realizados vários testes estatísticos para examinar a relação entre variantes genéticas e os grupos de casos e controlos.

A análise inclui análise estratificada, teste do qui-quadrado, teste exato de Fisher e teste de tendência de Cochran-Armitage. Estes testes são utilizados para comparar a distribuição de frequência de alelos e genótipos entre os grupos de caso e controlo e determinar se existem diferenças estatisticamente significativas.

A análise estratificada ajuda a avaliar a associação entre variantes genéticas e o risco de doença em subgrupos específicos da população. O teste do qui-quadrado, o teste exato de Fisher e o teste de tendência de Cochran-Armitage são aplicados para examinar se existem diferenças estatisticamente significativas na distribuição de frequência de alelos e genótipos entre os dois grupos. Estes testes fornecem informações valiosas sobre a potencial associação entre variantes genéticas específicas e o fenótipo ou doença estudada.

4) Análise de Haplótipos

Na análise de haplótipos, regiões genómicas contendo SNPs significativos são selecionadas para investigação adicional utilizando software de análise de haplótipos, como o Haploview.

A análise tem como objetivo identificar e caracterizar haplótipos comuns dentro destas regiões. As frequências dos haplótipos identificados são comparadas entre os grupos de caso e controlo. Esta comparação é realizada utilizando estatísticas qui-quadrado para determinar se existe uma associação significativa entre haplótipos específicos e a doença ou fenótipo estudado.

Ao examinar a distribuição e as frequências de diferentes haplótipos nos grupos de caso e controlo, a análise fornece informações sobre a relevância potencial de haplótipos específicos para a doença em investigação. O teste qui-quadrado e os correspondentes valores p são utilizados para avaliar a significância estatística das associações observadas.

Haplotype AnalysisFigura 2: Análise de Haplótipos

5) Filtragem de Variantes

No processo de filtragem de variantes, vários critérios são aplicados para selecionar variantes candidatas de alta qualidade.

Primeiro, a pontuação de qualidade Phred é obtida para cada base, e as variantes candidatas com uma pontuação de qualidade abaixo de 45 são removidas. Este limiar garante que variantes com baixa qualidade de sequenciação sejam excluídas da análise posterior.

Em seguida, são examinados os variantes heterozigóticos. Os variantes heterozigóticos devem ter uma profundidade de cobertura de pelo menos 10 vezes. Além disso, as leituras de sequência correspondentes devem ter posições de início e fim diferentes, indicando a presença de variação alélica. Os variantes que não atendem a esses critérios são filtrados.

É importante notar que o genoma humano contém variações genéticas normais, incluindo polimorfismos de nucleotídeo único (SNPs). Para distinguir variantes associadas a doenças das variantes normais, são utilizados bancos de dados como dbSNP, 1000 Genomes Project e NHLBI-ESP6500. As variantes candidatas que correspondem a variações normais conhecidas presentes nesses bancos de dados são filtradas, reduzindo a taxa de falsos positivos e focando em variantes potencialmente causadoras de doenças.

6) Variantes Sinónimas

Estas variantes ocorrem na região codificadora de um gene, mas não alteram a sequência de aminoácidos da proteína. Muitas vezes são consideradas benignas ou neutras em termos do seu impacto funcional.

Variantes Não Sinónimas: Estas variantes resultam numa alteração na sequência de aminoácidos da proteína. Dependendo da natureza da alteração do aminoácido, podem ser categorizadas como variantes missense (um aminoácido diferente é codificado), variantes nonsense (um códon de paragem prematuro é introduzido) ou variantes de deslocamento de quadro (o quadro de leitura é interrompido).

Variantes de Terminação Prematura: Estas variantes introduzem um códon de paragem prematuro na sequência codificadora, levando à truncagem da proteína. Estão associadas à perda da função da proteína e podem ser patogénicas.

Variantes de Sítios de Splicing: Estas variantes afetam os sítios de splicing, que são cruciais para um correto splicing do RNA. Disrupções no splicing podem levar a uma expressão gênica anormal e à produção de proteínas.

Indels: Indels referem-se a inserções ou deleções de nucleotídeos na sequência de ADN. Podem causar deslocamentos de quadro ou alterar o quadro de leitura, levando a alterações na sequência da proteína resultante.

Ao classificar e analisar estas variantes, é possível determinar os seus números e informações básicas. Esta informação é valiosa para compreender o potencial impacto funcional das variantes e a sua relevância para doenças ou características genéticas.

7) Fusão de Genes

A identificação de fusões genéticas é realizada utilizando ferramentas como o FusionMap e o GASVPro para procurar potenciais rearranjos genómicos envolvendo fusões de genes.

8) Predição da Estrutura de Proteínas Variantes: A ferramenta Swiss-Model é utilizada para modelagem por homologia para prever a estrutura tridimensional de proteínas variantes. Além disso, ferramentas como Chimera ou DS podem ser utilizadas para análise do módulo de mutagénese dirigida. Após a modelagem, é realizada uma otimização dinâmica para prever o impacto das mutações na estrutura da proteína.

Protein structure prediction of the variantFigura 3: Previsão da estrutura da proteína da variante

Análise de Associação de Função Génica

Se um pequeno número de variações genéticas associadas ao fenótipo estudado for obtido, é realizada uma revisão da literatura e pesquisas em bases de dados (como ClinVar, base de dados COSMIC) para obter funções genéticas potencialmente relacionadas que apoiem os resultados experimentais. Se um grande número de genes relevantes for obtido, é escolhida a análise GO para verificar se os genes mutados estão enriquecidos em funções especificamente associadas ao fenótipo.

Determinação de Mutacões Motoras

Passo 1: Priorização de mutações candidatas a condutoras de cancro a partir de mutações somáticas.

Para avaliar o impacto de mutações raras e comuns no desenvolvimento do câncer, primeiro utilizamos uma máquina de vetores de suporte radial (SVM) treinada em variantes de nucleotídeo único não sinónimas (nsSNVs) das bases de dados COSMIC e UniProt. Usando mutações somáticas como entrada, o sistema de determinação calcula os correspondentes escores da SVM radial para prever o potencial de cada mutação para se tornar um impulsionador do câncer.

Passo 2: Identificação de genes condutores candidatos a partir das mutações condutoras candidatas.

Baseando-se em décadas de conhecimento valioso gerado a partir de investigação, adicionamos uma nova camada em cima da camada SVM radial. Esta camada mede o peso de cada mutação com base na pontuação Phenolyzer do seu gene correspondente, avaliando assim a associação genética entre cada genótipo de mutação e fenótipo com base no conhecimento anterior. Os genes que contêm mutações prejudiciais são então filtrados e classificados com base nas suas pontuações ponderadas totais.

Passo 3: Identificação de fármacos candidatos a partir dos genes condutores candidatos.

Para melhor ajudar os investigadores/estudiosos clínicos em potenciais tratamentos personalizados, introduzimos um terceiro passo no processo de determinação, fornecendo um catálogo de medicamentos priorizado para cada gene condutor do câncer. Este passo identifica medicamentos candidatos com base nas suas interações com os nossos genes condutores do câncer previstos e os classifica utilizando as pontuações de interação dos genes-alvo correspondentes. As pontuações de atividade dos medicamentos são obtidas através de consultas à base de dados PubChem.

Análise da Estrutura Secundária do RNA

O impacto das variações de nucleótido único (SNVs) na estrutura secundária do RNA é avaliado utilizando o software RNAsnp. A avaliação da estrutura é a seguinte:

Impact of SNVs on RNA Secondary StructureFigura 4: Impacto das SNVs na Estrutura Secundária do RNA

Associação de Reguladores Transcricionais

A associação de reguladores transcricionais com SNVs-alvo é determinada através de uma análise combinada utilizando a base de dados ENCODE. Esta análise ajuda a identificar os fatores de transcrição cuja ligação é afetada pelos SNVs.

Transcription Factors at the Positions Corresponding to SNVsFigura 5: Fatores de Transcrição nas Posições Correspondentes aos SNVs

Rede Reguladora Pós-Transcricional

O impacto das SNVs alvo na regulação pós-transcricional é analisado utilizando o nosso sistema de análise de rede desenvolvido internamente, RBP-Var. Este sistema avalia os efeitos das SNVs na regulação pós-transcricional e identifica potenciais mecanismos regulatórios.

Network Analysis System for Post-transcriptional Regulation of SNVsFigura 6: Sistema de Análise de Rede para a Regulação Pós-transcricional de SNVs

Rede de Interação de Genes do Câncer

Utilizamos o dSysMap: explorando o papel edgético das mutações relacionadas com doenças para construir uma rede de interação de genes do câncer. Esta ferramenta permite-nos explorar o impacto funcional das mutações relacionadas com doenças nas interações proteína-proteína no contexto do câncer.

Previsão da Estrutura de Proteínas Mutantes

Ao utilizar software de predição, podemos avaliar o impacto das SNVs-alvo na estrutura terciária das proteínas. Esta análise revela alterações estruturais na proteína causadas por mutações deletérias em comparação com o gene selvagem. Além disso, também nos permite estudar o impacto das proteínas mutadas nas interações proteína-proteína. Além disso, possibilita o estudo dos efeitos das mutações nas interações proteicas.

Impact of SNVs on protein tertiary structure.Figura 7: Impacto das SNVs na estrutura terciária da proteína.

Impact of SNVs on protein-protein interactions.Figura 8: Impacto das SNVs nas interações proteína-proteína.

Referências:

  1. Joon Ki Hong Um estudo de associação genómica em larga escala dos efeitos genéticos sociais em porcos Landrace 2017 Jornal Asiático-Australásio de Ciências Animais
  2. Noriaki Itoh Análise de segregação em massa baseada em sequenciação de próxima geração para mapeamento de QTL na espécie heterozigótica Brassica rapa 2019 Genética Teórica e Aplicada
  3. Alan P Boyle Anotação da variação funcional em genomas pessoais usando RegulomeDB Pesquisa Genómica 2012
  4. Mao Fengbiao RBP-Var: uma base de dados de variantes funcionais envolvidas na regulação mediada por proteínas ligadoras de RNA, 2015 Nucleic Acids Research
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo