A organização tridimensional (3D) do genoma desempenha um papel crucial na regulação genética, replicação do DNA e estabilidade do genoma. Hi-C, uma técnica poderosa derivada dos métodos de captura de conformação de cromossomas (3C), permite o mapeamento em todo o genoma das interações da cromatina, proporcionando insights sobre a arquitetura espacial do genoma. No entanto, a análise de dados Hi-C é uma tarefa complexa que requer ferramentas e abordagens de bioinformática especializadas. Este artigo tem como objetivo fornecer um guia abrangente sobre como analisar dados de sequenciação Hi-C do ponto de vista da bioinformática, abordando etapas-chave como pré-processamento de dados, normalização, identificação de interações significativas e modelagem 3D.
Serviços que pode estar interessado em
Saiba Mais
Os dados de sequenciação Raw Hi-C geralmente contêm sequências de adaptadores, bases de baixa qualidade e duplicados de PCR. Ferramentas como FastQC e Trim Galore são utilizadas para avaliar a qualidade das leituras e realizar o corte. Posteriormente, ferramentas de alinhamento como Bowtie2 ou BWA mapeiam as leituras ao genoma de referência.
Antes de mergulhar nas complexidades do Hi-C análise de dadosGarantir a qualidade dos dados brutos de sequenciação é crucial. Este passo inicial é vital para a análise subsequente, uma vez que dados de baixa qualidade podem introduzir viés e artefatos, levando a resultados imprecisos.
Avaliação da Qualidade de Leitura
Como outros sequenciação de nova geração (NGS) dados, Os dados de sequenciação Raw Hi-C frequentemente contêm sequências de adaptadores, bases de baixa qualidade e duplicados de PCR. Estes problemas podem impactar significativamente a precisão e a fiabilidade da análise subsequente. Portanto, o primeiro passo no processamento dos dados Hi-C é avaliar a qualidade das leituras de sequenciação.
O FastQC é uma ferramenta amplamente utilizada para o controlo de qualidade de dados de sequenciação. Fornece um relatório abrangente sobre várias métricas de qualidade, incluindo:
1. Por qualidade da sequência da base: Este métrico avalia a distribuição dos scores de qualidade em cada posição da base nas leituras. Bases de alta qualidade são essenciais para um mapeamento preciso.
2. Por pontuações de qualidade da sequência: Isto fornece uma visão geral da qualidade global de cada leitura.
3. Por conteúdo da sequência base: Esta métrica verifica a distribuição de nucleotídeos (A, T, C, G) em cada posição nas leituras. Uma distribuição enviesada pode indicar viés de sequenciação.
4. Conteúdo do adaptador: O FastQC identifica a presença de sequências de adaptador, que podem interferir no mapeamento das leituras.
Ao examinar estas métricas, os investigadores podem identificar potenciais problemas nos dados de sequenciação e decidir sobre os passos de pré-processamento adequados.
Leitura de Corte
Uma vez que a qualidade das leituras é avaliada, o próximo passo é aparar as leituras para remover bases de baixa qualidade e sequências de adaptadores. O Trim Galore é uma ferramenta popular para este propósito. Ele integra-se com o FastQC e fornece um pipeline automatizado para aparar e controlar a qualidade. O Trim Galore pode:
1. Remover sequências de adaptadores: As sequências de adaptadores são frequentemente ligadas às extremidades dos fragmentos de DNA durante a preparação da biblioteca. Se não forem removidas, podem interferir na mapeação das leituras.
2. Cortar bases de baixa qualidade: Bases com pontuações de qualidade baixas são menos fiáveis e podem introduzir erros na análise. O Trim Galore corta estas bases das extremidades das leituras.
3. Filtrar leituras curtas: Após o corte, algumas leituras podem tornar-se demasiado curtas para serem úteis. O Trim Galore pode filtrar estas leituras curtas para melhorar a qualidade geral do conjunto de dados.
O passo inicial na análise de dados Hi-C envolve mapear as leituras de sequenciamento ao genoma de referência. Este processo é complicado pelo fato de que as bibliotecas Hi-C contêm leituras quiméricas, que são fragmentos resultantes da ligação de duas ou mais regiões genómicas não contíguas. Várias estratégias podem ser empregues para lidar com estas leituras quiméricas:
1. Pré-truncagem: Este método envolve truncar as leituras para remover potenciais sequências de junção de ligadura antes do mapeamento. Por exemplo, se a enzima de restrição HindIII for utilizada, a sequência de junção de ligadura é "AAGCTAGCTT".
2. Mapeamento Iterativo: As leituras são inicialmente truncadas para um comprimento curto (por exemplo, 25 pb) e mapeadas. Se o mapeamento não for único, bases adicionais são adicionadas de forma iterativa até que o comprimento total da leitura seja alcançado.
3. Permitir Alinhamentos Divididos: Alguns alinhadores, como o modo bwa-sw do BWA, permitem alinhamentos divididos dentro de uma leitura. Esta abordagem identifica leituras que se mapeiam para múltiplas localizações e retém apenas aquelas com mapeamentos inequívocos.
4. Dividir se Não Mapeado: Leituras que não conseguem ser mapeadas inicialmente são verificadas quanto à presença de um único local de restrição. Se encontrado, a leitura é dividida em duas partes, e cada parte é mapeada de forma independente.
Após o mapeamento, as leituras são filtradas com base em vários critérios, incluindo o número de discrepâncias, qualidade do mapeamento (pontuação MAPQ) e unicidade. Além disso, as leituras são atribuídas ao sítio de restrição mais próximo, e aquelas que não correspondem ao tamanho de fragmento esperado são descartadas.
Os pares de leituras Hi-C são classificados adicionalmente para identificar interações informativas. Filtros de fita removem pares que não conformam às orientações esperadas, como pares internos ou externos. Filtros de distância eliminam pares intra-cromossómicos que estão demasiado próximos, os quais são provavelmente artefatos. Pares de leituras duplicadas, que podem surgir da amplificação por PCR, também são removidos para evitar viés.
A normalização é essencial para corrigir vieses nos dados de Hi-C, que podem surgir da profundidade de sequenciamento, conteúdo de GC, mapeabilidade e outros fatores. Vários métodos de normalização estão disponíveis:
Correção de Fator Explícito: Esta abordagem modela os vieses de forma explícita. Por exemplo, o método de Yaffe e Tanay corrige o conteúdo de GC, a mapeabilidade e o comprimento dos fragmentos [54]. O HiCNorm utiliza modelos de regressão para alcançar resultados semelhantes de forma mais eficiente [55].
Equilíbrio de Matrizes: Métodos como o ICE corrigem iterativamente os enviesamentos para alcançar uma matriz equilibrada onde cada locus tem visibilidade igual. Esta abordagem assume que todos os loci são igualmente visíveis na ausência de enviesamento.
Correção Conjunta: Alguns métodos, como o GDNorm, corrigem simultaneamente os vieses e o efeito da distância genómica.
A normalização melhora significativamente a reprodutibilidade dos dados Hi-C e aumenta a deteção de interações significativas. Os mapas de contacto normalizados são mais suaves e mais interpretáveis do que os dados brutos.
Figura 1. Visão geral dos pipelines de análise Hi-C. (Ferhat Ay, et al., 2015)
Figura 2. Diagrama de fluxo para processamento de dados Hi-C. (Bryan R Lajoie, et. al, 2015)
Identificar interacções significativas de cromatina é crucial para compreender a arquitectura do genoma. Várias abordagens são utilizadas para distinguir interacções funcionais de contactos aleatórios:
1. Razão Observada/Esperada: Este método agrupa loci por distância genómica e calcula uma razão de contactos observados para contactos esperados dentro de cada grupo.
2. Ajustes Paramétricos: Estes métodos assumem uma distribuição específica (por exemplo, lei de potência ou dupla exponencial) para modelar a dependência da distância em relação ao número de contactos.
3. Ajustes Não Paramétricos: Métodos como o Fit-Hi-C utilizam splines de suavização para modelar a dependência da distância sem assumir uma distribuição específica.
4. Detecção de Picos: O HiCCUPS identifica interações significativas como picos no mapa de contactos, indicando laços de cromatina estáveis.
Os dados Hi-C fornecem uma ferramenta poderosa para investigar a organização 3D do genoma, incluindo se conjuntos específicos de loci colocalizam no espaço. Métodos tradicionais, como o teste hipergeométrico e abordagens baseadas em reamostragem, são amplamente utilizados para avaliar a significância da colocalização. Estes métodos comparam a frequência observada de interações entre loci com o que seria esperado ao acaso, ajudando a identificar associações espaciais significativas. No entanto, muitas vezes não conseguem levar em conta a complexa arquitetura genómica, como a estrutura de compartimentos e a organização de domínios, que podem influenciar significativamente a interpretação dos resultados de colocalização.
Para abordar estas limitações, foram desenvolvidos métodos mais avançados. Por exemplo, as abordagens propostas por Paulsen et al. introduzem modelos estatísticos sofisticados que controlam por fatores adicionais. Ao incorporar informações sobre a organização genómica geral, incluindo compartimentos A/B e TADs, estes métodos proporcionam uma avaliação mais precisa da significância da colocalização. Eles ajudam a distinguir interações espaciais reais daquelas que podem simplesmente refletir preconceitos estruturais subjacentes no genoma. Isso permite que os investigadores obtenham uma compreensão mais profunda das relações funcionais e estruturais entre os loci genómicos, melhorando, em última análise, a nossa compreensão de como o genoma 3D é organizado e regulado.
Os Domínios de Associação Topológica (TADs) são regiões espacialmente confinadas do genoma onde as interações de DNA ocorrem com mais frequência dentro do domínio do que nas suas fronteiras. Estas estruturas são críticas para organizar a arquitetura da cromatina, regular a expressão génica e manter a estabilidade genómica. Os TADs são conservados entre tipos celulares e espécies, embora as suas fronteiras possam variar dinamicamente durante o desenvolvimento ou estados de doença.
Vários métodos computacionais foram desenvolvidos para identificar TADs a partir de dados de Hi-C ou de outras interacções de cromatina (por exemplo, Micro-C, HiChIP). Estes métodos diferem nas suas suposições subjacentes, resolução e sensibilidade ao ruído. Abaixo estão as principais abordagens:
1. Modelo de Markov Oculto com Índice de Direcionalidade (DI HMM): Este método quantifica o desequilíbrio entre contactos a montante e a jusante para identificar os limites dos TADs.
2. Fator de Escala de Distância: Esta abordagem identifica os limites de TAD como picos em um fator de escala de distância que mede a insulação.
3. Domínios Multiescalares e Hierárquicos: Métodos como Armatus e HiCseg identificam TADs em múltiplas resoluções e inferem um conjunto consensual de domínios.
4. Algoritmo da Flecha: Este método heurístico identifica pequenos TADs ao transformar o mapa de contactos numa matriz de flechas e procurar padrões característicos.
Os métodos de consenso são projetados para destilar a informação complexa dos dados Hi-C em uma única estrutura 3D representativa da cromatina. Esta abordagem é particularmente útil para fornecer um modelo claro e interpretável que captura a disposição espacial média das fibras de cromatina dentro do núcleo celular. Um dos métodos de consenso mais amplamente utilizados é a Escalonamento Multidimensional (MDS). O MDS funciona convertendo os dados de frequência de contacto dos experimentos Hi-C em distâncias espaciais entre loci genómicos. Ao minimizar a diferença entre as contagens de contacto observadas e as distâncias calculadas no espaço 3D, o MDS gera um modelo que fornece uma boa aproximação da estrutura global da cromatina. No entanto, o MDS tem as suas limitações. Assume uma relação linear entre a frequência de contacto e a distância espacial, o que pode não ser sempre verdade devido à natureza complexa e dinâmica das interacções da cromatina. Além disso, o MDS pode ter dificuldade em capturar detalhes mais finos e variações locais na estrutura da cromatina.
Para abordar estas limitações, foram desenvolvidos métodos mais avançados, como a Programação Semi-Definida. A PSD incorpora restrições adicionais e técnicas de regularização para fornecer reconstruções mais precisas da estrutura da cromatina. Ao considerar as propriedades físicas da cromatina e levar em conta o ruído nos dados, a PSD pode gerar um modelo 3D mais preciso. No entanto, esse aumento de precisão tem um custo computacional significativo, tornando a PSD menos viável para conjuntos de dados em grande escala.
Enquanto os métodos de consenso fornecem um único modelo, os métodos de conjunto adotam uma abordagem diferente ao gerar múltiplas estruturas 3D para capturar a heterogeneidade celular inerente nos dados de Hi-C. Isso é particularmente importante porque a organização da cromatina pode variar significativamente entre células individuais, mesmo dentro do mesmo tipo celular. A amostragem de Cadeia de Markov Monte Carlo (MCMC) é uma abordagem probabilística que produz um conjunto de estruturas, cada uma representando uma configuração plausível da cromatina. Ao amostrar a partir de uma distribuição de probabilidade definida pelos dados de Hi-C, a MCMC gera um conjunto de estruturas que coletivamente descrevem os dados. Esta abordagem permite que os investigadores quantifiquem a incerteza na estrutura da cromatina e identifiquem regiões com alta variabilidade. No entanto, a amostragem MCMC pode ser intensiva em termos computacionais, especialmente ao gerar um grande número de estruturas.
Métodos de conjunto mais avançados foram desenvolvidos para melhorar a eficiência computacional e a precisão. Por exemplo, métodos desenvolvidos por Kalhor et al. podem inferir simultaneamente milhares de estruturas, proporcionando uma visão mais abrangente e detalhada da organização da cromatina. Estes métodos avançados aproveitam a computação paralela e técnicas de otimização avançadas para explorar de forma eficiente o vasto espaço de possíveis configurações da cromatina. Ao mimetizar a natureza em massa dos experimentos Hi-C, estes métodos conseguem capturar melhor a natureza dinâmica e variável da estrutura da cromatina.
As ferramentas de visualização são essenciais para interpretar dados Hi-C e identificar padrões. O WashU Epigenome Browser e o Hi-C Data Browser permitem aos utilizadores visualizar contactos de longa distância e integrá-los com outros dados genómicos. O Juicebox é uma aplicação de desktop que fornece mapas de calor interativos e suporta múltiplos conjuntos de dados Hi-C. Ferramentas como Genome3D e TADkit estão em desenvolvimento para visualizar estruturas de cromatina em 3D.
A imagem seguinte exibe um mapa de calor dos dados Hi-C, onde a tonalidade da cor representa a frequência de interações entre diferentes regiões do genoma. A linha diagonal na imagem indica auto-interações, ou seja, interações entre os mesmos locais genómicos. As áreas escuras fora da diagonal representam interações de longo alcance, que podem corresponder a laços de cromatina ou TADs. Através deste tipo de visualização, os investigadores podem identificar intuitivamente padrões de organização espacial dentro do genoma, o que é crucial para compreender a regulação genética e a função genómica.
Figura 3. Visualização dos Dados Hi-C. (Bryan R Lajoie, et. al, 2015)
A sequenciação Hi-C revolucionou a nossa capacidade de estudar a organização tridimensional do genoma, proporcionando insights sem precedentes sobre a sua arquitetura espacial e implicações funcionais. No entanto, permanecem desafios significativos na análise computacional dos dados Hi-C, particularmente em estudos comparativos entre múltiplos conjuntos de dados, integração com dados multi-ómicos e processamento escalável de experimentos Hi-C de alta resolução e de célula única. Avanços metodológicos futuros - incluindo ferramentas para desconvoluir subpopulações celulares e resolver estruturas específicas de haplótipos - serão cruciais para desvendar a complexidade total da organização do genoma em diversos contextos biológicos.
A bioinformática desempenha um papel indispensável na transformação de dados brutos de Hi-C em descobertas biológicas significativas. Ao aproveitar as estratégias analíticas e as ferramentas computacionais discutidas neste guia, os investigadores podem investigar sistematicamente a relação entre a estrutura do genoma em 3D e a regulação genética. À medida que o campo avança, o desenvolvimento de abordagens de bioinformática mais sofisticadas, eficientes e integrativas será essencial para desbloquear a próxima geração de descobertas na arquitetura e função do genoma.
Referências: