Visão Geral da Sequenciação Hi-C
O que é o sequenciamento Hi-C?
A pesquisa genómica abrange várias dimensões, principalmente categorizadas em representações 1D, 2D e 3D. No domínio 1D, os investigadores utilizam técnicas de mapeamento linear para estudar sequências genómicas. Ao avançar para a dimensão 2D, eles exploram a análise de redes, focando particularmente em redes sem escala. Finalmente, a dimensão 3D examina os aspectos estruturais e dinâmicos do genoma.
A tecnologia Hi-C destaca-se como um método poderoso para investigar a estrutura 3D dos genomas. Derivada da fusão de Sequenciação de Alto Débito (HTS) e Captura de Conformação de Cromossomas (3C), o Hi-C oferece insights sobre a organização espacial da cromatina dentro do núcleo.
A Captura de Conformação de Cromossomas (3C) envolve uma série de etapas: fixação da cromatina nuclear, digestão das ligações cruzadas entre cromatina e proteínas, ligadura dos digestos, libertação de proteínas ligadas e análise por PCR para detetar interações entre fragmentos de DNA. Este método assume que fragmentos de DNA que interagem fisicamente exibem frequências de ligação mais elevadas, que são identificadas através de PCR específica para locos.
O Hi-C leva isso um passo mais longe ao construir montagens a nível de cromossoma de sequências genómicas fragmentadas e determinar a sua ordem e orientação no cromossoma. Além disso, o Hi-C pode ser integrado com outros dados ómicos, como RNA-Seq e ChIP-Seq, para elucidar redes regulatórias genéticas e epigenéticas subjacentes a características organismais.
Formas de rearranjos genómicos complexos: A cromoplexia é caracterizada pela troca de fragmentos maiores entre cromossomas. (Schöpflin et al., 2022)
Vantagens da Construção de Cromossomas Hi-C
- Abordagem centrada no indivíduo: Ao contrário dos métodos tradicionais que frequentemente exigem a construção de populações, a construção de cromossomas Hi-C pode ser executada de forma eficaz por um único indivíduo. Isso simplifica o processo, reduzindo a necessidade de estudos extensivos baseados em populações.
- Eficiência de Localização Aprimorada: A construção de cromossomas Hi-C apresenta uma eficiência de localização superior em comparação com muitas técnicas convencionais. Isso significa que pode identificar com precisão a organização espacial das sequências genómicas, fornecendo informações detalhadas sobre interações de cromatina e arranjos estruturais.
- Capacidades de Correção de Erros: Uma vantagem notável da construção de cromossomas Hi-C é a sua capacidade de correção de erros durante a montagem do genoma. Esta característica permite que os investigadores refine e melhorem a precisão do genoma montado, garantindo resultados fiáveis para análises e interpretações subsequentes.
Fluxo de Trabalho da Tecnologia de Sequenciamento Hi-C
- Entrelaçamento Celular
As células passam por preparação e fixação através da ligação cruzada com formaldeído ou paraformaldeído. Este processo preserva as interações proteína-DNA e DNA-DNA intracelulares, mantendo assim a estrutura 3D dentro da célula. Para amostras vivas, um tratamento típico envolve 1-3% de formaldeído durante 10-30 minutos à temperatura ambiente. No entanto, é crucial notar que esta etapa pode prejudicar a eficiência da digestão da sequência de DNA por endonucleases de restrição e requer um controlo preciso.
- Digestão de Endonuclease
O DNA é clivado enzimaticamente utilizando endonucleases de restrição, gerando extremidades adesivas em ambos os lados das ligações cruzadas. O tamanho dos fragmentos resultantes impacta a resolução do sequenciamento. Geralmente, estão disponíveis para seleção duas enzimas: uma endonuclease de restrição de 6 bp ou uma endonuclease de restrição de 4 bp. Enzimas como EcoR1 ou HindIII são utilizadas para cortar o genoma aproximadamente a cada 4000 bp, resultando em cerca de 1 milhão de fragmentos dentro do genoma humano.
Principais etapas do protocolo Hi-C antes da sequenciação. (Lun et al., 2015)
- Reparação de Fim
O DNA fragmentado possui extremidades planas ou pegajosas, que passam por reparação para criar extremidades cegas. Durante este processo, bases marcadas com biotina são introduzidas para facilitar a purificação e captura subsequentes do DNA.
- Ciclização
Fragmentos de DNA reparados no final são laçados entre segmentos de DNA que contêm interações utilizando ligase de DNA T4. Subsequentemente, as proteínas que conectam os fragmentos de DNA são digeridas para isolar os fragmentos entrelaçados.
- Purificação e Captura de DNA
O DNA é desentrelaçado, purificado e fragmentado em fragmentos de 300 bp a 700 bp. Fragmentos que contêm interações são então capturados para a construção da biblioteca utilizando esferas magnéticas com afinidade por cadeias. Ultrassom ou métodos semelhantes são utilizados para quebrar ainda mais os fragmentos.
- Sequenciação
Fragmentos contendo biotina são capturados usando esferas magnéticas, bibliotecas são construídas e a sequenciação é realizada.
Análise de Dados para Sequenciação Hi-C
O processo de análise de dados para sequenciação Hi-C envolve seis etapas críticas:
- Filtragem de Leituras Brutas Prévia: Este passo inicial envolve a filtragem de leituras brutas para remover sequências de baixa qualidade ou erróneas, semelhante aos procedimentos padrão de processamento de dados de sequenciação de segunda geração.
- Comparação de Sequências: É recomendado utilizar o modo de sequenciação de pares para a análise de dados Hi-C, facilitando a comparação precisa de sequências.
- Posicionamento dos Locais de Clivagem: Após determinar a localização física dos pares de leituras no genoma, o próximo passo envolve identificar o local de clivagem da enzima de restrição mais próximo correspondente a cada par de leituras. Isso é alcançado considerando a restrição do tamanho do fragmento de inserção. A posição do segmento clivado enzimaticamente fornece uma localização aproximada onde ocorreram interações de DNA.
- Triagem de Fragmentos de Comparação Válidos: Fragmentos de comparação válidos são identificados como leituras emparelhadas localizadas em extremidades opostas do sítio de clivagem e mapeadas em direcções opostas, garantindo uma representação precisa das interacções cromossómicas.
- Integração das Intensidades de Interação de Fragmentos de DNA: As intensidades das interações dos fragmentos de DNA são integradas, fornecendo informações sobre a força e a frequência das interações entre loci genómicos.
- Normalização da Matriz de Interação de Fragmentos de DNA: A normalização da matriz de interação de fragmentos de DNA é realizada para garantir comparações imparciais e uma interpretação precisa dos dados de interação.
Montagem Hi-C
A montagem Hi-C é tipicamente realizada utilizando software como o LACHESIS, que segmenta, sequencia e orienta o genoma com base no suporte fornecido por pares de leituras válidas. Este processo envolve mapeamento manual e verificação do genoma para obter uma montagem final ao nível dos cromossomas.
Os pares de leitura válidos geram sinais no mapa, com a intensidade do sinal diretamente proporcional à distância espacial e de sequência entre contigs. Esta informação permite a correção de erros, incluindo a identificação e correção de contigs mal montados, ajuste das orientações dos contigs e determinação da colocação dos contigs dentro dos cromossomas através de agrupamento.
Em última análise, é obtida uma montagem do genoma a nível de cromossoma refinada, com quaisquer discrepâncias remanescentes ajustadas manualmente para garantir a precisão. O processo de ajuste manual visa alcançar um sinal diagonal claro, indicativo de um genoma bem montado.
Aplicações da Tecnologia Hi-C
Nos últimos anos, a tecnologia Hi-C desempenhou um papel fundamental na melhoria da montagem de genomas e na compreensão da estrutura tridimensional (3D) dos genomas em vários organismos, incluindo humanos, cabras, mosquitos, leveduras, cevada e trigo. A montagem bem-sucedida de genomas a nível de cromossoma nessas espécies sublinha a fiabilidade e versatilidade da tecnologia de montagem de genomas assistida por Hi-C.
A tecnologia Hi-C revela a intrincada estrutura tridimensional dos genomas, elucidando a organização hierárquica da cromatina desde compartimentos (Compartimentos A/B) até domínios estruturais associados à topologia (TADs) e, ainda, até laços. Esta compreensão abrangente é crucial para estudar interações espaciais entre sequências de DNA, construir estruturas cromossómicas 3D de alta resolução, decifrar mecanismos de regulação genética e facilitar a construção de genomas trans-cromossómicos e haplótipos que abrangem cromossomas. Notavelmente, as estruturas 3D do genoma foram reconstruídas com sucesso em vários organismos, incluindo humanos, Drosophila, levedura, Arabidopsis thaliana, arroz e espécies de algodão. A análise comparativa das estruturas 3D do genoma em diferentes amostras também foi realizada, lançando luz sobre insights evolutivos e funcionais.
- Mapas Hi-C de Genoma Completo: Isto inclui uma análise abrangente das interações cis/trans dentro do genoma.
- Identificação e Análise de Compartimentos A/B: Hi-C facilita a identificação e análise de compartimentos genómicos, complementada por análises conjuntas com Chip-seq e RNA-seq dados.
- Análise de Interações entre Genes e Sequências Repetitivas: Hi-C permite a investigação das interações entre genes e sequências repetitivas, frequentemente integrado com dados de RNA-seq para uma análise abrangente.
- Identificação e Análise de TAD: A tecnologia Hi-C ajuda na identificação e análise de Domínios Associados Topologicamente (TADs), frequentemente associada a Chip-seq e RNA-seq análises.
- Modelagem de Laços em Todo o Genoma: Este aspecto requer dados complementares, como DNase-seq, e é frequentemente analisado em conjunto com Chip-seq e dados de RNA-seq.
- Análise Diferencial de Estruturas 3D: O Hi-C permite a análise diferencial de estruturas 3D entre múltiplas amostras, incluindo a análise diferencial dos compartimentos A/B, TADs e laços.
Referências:
- Schöpflin, Robert, et al. "Integração de Hi-C com sequenciação de genoma de leituras curtas e longas revela a estrutura de genomas rearranjados da linha germinativa." Comunicações da Natureza 13.1 (2022): 6470.
- Lun, Aaron TL, e Gordon K. Smyth. "diffHic: um pacote Bioconductor para detectar interacções genómicas diferenciais em dados Hi-C." BMC bioinformática 16 (2015): 1-11.