Como Interpretar Dados de ATAC-Seq
Os cromossomas são estruturas formadas através da extensa condensação e espiralização da cromatina. Semelhante a arquivos comprimidos na computação, este estado condensado não é propício à leitura (transcrição). Consequentemente, antes da transcrição para a síntese de proteínas, a cromatina deve ser descomprimida ou aberta para tornar o DNA legível.
Entre várias tecnologias epigenéticas, Ensaios para Cromatina Acessível a Transposase utilizando sequenciação (ATAC-seq) surgiu como um método proeminente para avaliar a acessibilidade da cromatina em todo o genoma. Esta tecnologia avalia diretamente a "legibilidade" da cromatina, destacando o seu significativo valor de aplicação. Apesar da sua importância, muitos recursos online sobre ATAC-seq concentram-se principalmente em métodos analíticos e fluxos de trabalho, com uma discussão limitada sobre as implicações biológicas dos resultados. Esta revisão tem como objetivo abordar os seguintes aspetos:
1. Qualidade de Alinhamento e Sequenciamento
2. Chamada de Picos
3. Análise a Montante
4. Integração com Dados Multiômicos
5. Visualização
Qualidade de Alinhamento e Sequenciação
Em alinhamento com o fluxo de trabalho analítico para todas as tecnologias de sequenciação de nova geração, o passo inicial em Análise ATAC-seq envolve a mapeação de leituras de sequência curtas a um genoma de referência, seguida de medidas preliminares de controlo de qualidade.
Figura 1. Visão geral do fluxo de trabalho do ATAC-Seq. (Adaptado da Galaxy Training Network, Análise de dados ATAC-Seq, licenciado sob a CC BY 4.0.)
O diagrama acima ilustra que cada passo no processo de análise (indicado por setas vermelhas) envolve medidas de controlo de qualidade. O controlo de qualidade é fundamental para obter resultados analíticos precisos. No ATAC-seq, o controlo de qualidade foca principalmente na análise de etiquetas de inserção dentro das bibliotecas e sinais de locais de início de transcrição (TSS). Isso pode ser compreendido através dos seguintes detalhes:
Figura 2. Distribuição do tamanho dos fragmentos ATAC-seq. (Esquerda: Adaptado de Buenrostro et al., 2013; Direita: Adaptado de Yan et al., 2014, DOI: 10.1186/1756-8935-7-33.)
O primeiro pico observado antes de 150 pares de bases representa a clivagem de regiões de cromatina aberta. Este pico é acompanhado por pequenos picos periódicos, semelhantes a serrilhas, com aproximadamente 10 pares de bases entre cada pico menor. O pico em torno de 200 pares de bases é atribuído principalmente à clivagem de nucleossomas. Como mencionado anteriormente, o DNA enrolado em torno de um nucleossoma tem aproximadamente 147 pares de bases de comprimento; devido à variabilidade na precisão da clivagem, o pico observado ocorre perto de 200 pares de bases. Picos subsequentes representam a presença de dois, três ou múltiplos nucleossomas, com alturas de pico decrescentes. Esta redução indica uma menor probabilidade de clivagem de nucleossomas localizados mais longe da região proximal da cromatina.
Chamadas de Pico de ATAC-seq
Distinções entre a Significância dos Picos de ATAC-seq e ChIP-seq
Os picos identificados por ATAC-seq e ChIP-seq representar diferentes fenómenos biológicos e, portanto, ter significados distintos:
Picos de ChIP-seq
O ChIP-seq envolve o uso de anticorpos específicos para uma proteína-alvo para precipitar a proteína e os fragmentos de DNA associados. Estes fragmentos de DNA são posteriormente mapeados para o genoma. Os locais de ligação da proteína-alvo são indicados por regiões onde os fragmentos de DNA estão densamente empilhados. A visualização destas regiões como gráficos de barras resulta em picos discretos. Normalmente, o ChIP-seq produz um único pico proeminente correspondente ao local de ligação da proteína de interesse.
Picos ATAC-seq
O ATAC-seq baseia-se na transposase Tn5 para clivar locais de DNA acessíveis dentro da cromatina. A ligação da transposase Tn5 à cromatina é um evento estocástico. A determinação de se a profundidade de leitura de um local constitui um pico é realizada utilizando software como o MACS (Análise Baseada em Modelo de ChIP-Seq). Quando um fator de transcrição se liga ao DNA, ele obstrui a transposase Tn5 de cortar naquele local específico, resultando numa região protetora onde as leituras são depletadas. Consequentemente, as regiões ligadas por fatores de transcrição no ATAC-seq normalmente exibem um pico característico em forma de vale.
Figura 3. Esquema das leituras ATAC-Seq em relação aos nucleossomas. (Esquerda: Adaptado da Galaxy Training Network, Análise de dados ATAC-Seq; Direita: Fonte desconhecida.)
Impacto da Construção do Modelo na Chamada de Picos com o Software MACS
Ao empregar o software MACS para a identificação de picos, a metodologia utilizada para construir o modelo influencia significativamente os critérios que o MACS utiliza para identificar picos.
O MACS utiliza um modelo estatístico para distinguir entre picos de sinal verdadeiros e ruído de fundo. Os parâmetros definidos durante a construção do modelo, incluindo a escolha do controlo de entrada, o limiar de enriquecimento de picos e a sensibilidade do modelo, afetam diretamente a precisão e a fiabilidade da deteção de picos. Variações nestes parâmetros podem levar a diferenças no número e nas características dos picos detetados, enfatizando a importância de calibrar cuidadosamente o modelo para refletir as condições e os objetivos experimentais.
Ao otimizar estes parâmetros, os investigadores podem aumentar a especificidade e a sensibilidade da deteção de picos, melhorando assim a interpretabilidade e a relevância biológica dos resultados obtidos a partir de ATAC-seq e técnicas de sequenciação de alto débito semelhantes.
Figura 4. Comparação da Detecção de Picos.
Análise Comparativa da Detecção de Picos em ChIP-seq e ATAC-seq
Tanto o ChIP-seq como o ATAC-seq geram padrões de ligação de leitura distintos que podem manifestar-se como picos duplos em regiões de fatores de transcrição (TF) ou de integração do Tn5.
No ChIP-seq, os picos observados refletem as regiões onde os fragmentos de DNA co-precipitaram com os fatores de transcrição (TFs). No entanto, esses picos frequentemente se estendem além dos reais locais de ligação dos TFs devido à inclusão de fragmentos de DNA circundantes, necessitando de um deslocamento para dentro das posições de leitura para representar com precisão os locais de ligação dos TFs.
Por outro lado, no ATAC-seq, também é necessário um deslocamento para alinhar picos adjacentes em um único pico; este deslocamento deve ser direcionado para fora a partir do centro do pico. Este ajuste leva em conta o enriquecimento de leituras nas regiões flanqueadoras dos locais de ligação do TF em vez de no motivo central.
Por exemplo, no caso do CTCF (fator de ligação CCCTC), os picos de ChIP-seq delineiam as regiões de ligação do CTCF, com a localização central a representar o motivo do CTCF. Em contraste, as leituras de ATAC-seq estão enriquecidas nas regiões flanqueadoras do motivo, como ilustrado na figura acompanhada. O eixo horizontal da figura representa as coordenadas genómicas, enquanto o eixo vertical denota a intensidade do sinal de ATAC-seq.
Figura 5. Marcação de fatores de transcrição utilizando ATAC-Seq. (Adaptado de Buenrostro et al., 2013.)
Serviços que pode estar interessado em
Análise a Montante
A análise a montante representa um foco principal deste artigo, e é categorizada em quatro aspectos principais: análise de picos, análise de motivos, posicionamento de nucleossomas e impressão de fatores de transcrição.
Análise de Picos
A análise de picos é subdividida em duas abordagens principais:
Análise de Picos Diferenciais Baseada em Conjuntos de Picos Predefinidos: Este método envolve a identificação de picos a partir de um conjunto predefinido e, posteriormente, a realização de uma análise diferencial com base em dados de sequenciação de RNA (RNA-seq) ou outros métodos análogos. Recomenda-se que todas as amostras sejam agrupadas para identificar um conjunto de picos imparcial e consistente antes de realizar análises adicionais.
Abordagem de Janela Deslizante: Este método opera com menos suposições, oferecendo assim uma análise mais imparcial. No entanto, é notado que esta abordagem pode resultar em uma taxa de falsos positivos mais elevada, necessitando de um filtragem preliminar mais rigorosa.
Anotação de Pico
A anotação de picos envolve mapear picos a regiões genómicas funcionais—como exões, promotores, potenciadores e regiões não traduzidas (UTRs)—para elucidar as funções regulatórias dos picos sobre os genes. Os picos típicos de ATAC-seq geralmente caem dentro de elementos cis-regulatórios. Após a anotação dos picos, pode ser realizada uma análise de enriquecimento funcional na lista de genes resultante para explorar ainda mais a significância biológica dos picos identificados.
Motivos
Os fatores de transcrição (TFs) influenciam tipicamente a transcrição ao ligarem-se a motivos localizados em regiões de cromatina aberta. Assim, a análise de motivos e locais de ligação dos TFs constitui um componente crucial da análise de ATAC-seq. O genoma humano abrange aproximadamente 1.600 fatores de transcrição distintos, com os seus locais de ligação dispersos por todo o genoma. Analisar a atividade e acessibilidade de vários motivos facilita a identificação e interpretação de processos regulatórios biológicos chave.
Anotação: Várias bases de dados fornecem motivos preditivos, seja experimentalmente ou por meio de algoritmos, para fins de anotação, incluindo o CIS-BP e o RegulonDB. Estes recursos são fundamentais na anotação de motivos.
Enriquecimento: Ao identificar motivos, calcular a sua frequência dentro das regiões de pico abertas permite a deteção de motivos enriquecidos, que podem ser utilizados para prever ou associar a atividade de fatores de transcrição.
Pegadas TF
Uma abordagem alternativa para descrever a regulação de fatores de transcrição (TF) envolve o uso de pegadas. A ligação ativa de TF resulta na falha da transposase Tn5 em se ligar durante a preparação da biblioteca ATAC-seq, levando à formação de um vale (ou "pegada") no local de ligação do TF dentro do pico. É importante notar que a identificação precisa de pegadas é desafiadora e depende de uma alta profundidade de sequenciação. Além disso, muitos algoritmos atualmente utilizados para a análise de pegadas de TF não foram especificamente desenvolvidos para ATAC-seq, o que pode introduzir viés nos resultados.
Posicionamento de Nucleossomas
Em típico conjuntos de dados ATAC-seqFragmentos mais longos frequentemente representam regiões associadas a múltiplos nucleossomas. Vários métodos exploram esta informação para detectar regiões enriquecidas em nucleossomas. No entanto, devido à menor cobertura de leitura nessas regiões em comparação com áreas de cromatina aberta, tais análises podem ser particularmente desafiadoras.
Visualização
Visualização de dados genómicos é frequentemente alcançado através da representação de picos e mapas de calor centrados em TSS. Essas visualizações são fundamentais para interpretar a acessibilidade da cromatina e identificar elementos regulatórios.
Visualização de Picos e Mapas de Calor
A representação gráfica envolve tipicamente a plotagem de picos em torno do TSS, com cada linha no gráfico a representar um transcrito distinto. Estas ferramentas visuais permitem a identificação de regiões de cromatina aberta, potenciais potenciadores ou silenciadores.
As regiões promotoras são frequentemente delimitadas dentro de uma faixa comumente utilizada de 2,5 quilobases (kb) a partir do TSS. Uma vez que as regiões promotoras carecem de um limite bem definido, esta faixa fornece uma aproximação prática para a sua identificação.
Imagens cortesia de Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Além de visualizar dados centrados em TSS, as representações gráficas também podem ser centradas em picos de genes específicos, como ilustrado abaixo:
Imagens cortesia de Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Além disso, é comum visualizar regiões específicas do DNA dentro de artigos, como o gene RAC2 ilustrado abaixo:
Imagens cortesia de Lucille Delisle / Galaxy Training Network (CC BY 4.0).
Esta versão mantém um tom formal e preciso, adequado para a comunicação científica.
Integração de ATAC-seq com ChIP-seq e RNA-seq
A questão de saber se ATAC-seq sozinho pode substituir ChIP-seq é abordado de forma negativa. Na prática, o ATAC-seq é frequentemente combinado com outras tecnologias de sequenciação para alcançar análises abrangentes.
ATAC-seq combinado com RNA-seq:
Tipicamente, a RNA-seq é realizada antes da ATAC-seq. Os genes diferencialmente expressos identificados através da RNA-seq podem ser investigados mais a fundo usando a ATAC-seq para realizar a análise de motivos, o que ajuda a identificar fatores regulatórios associados aos genes-alvo. A validação experimental subsequente pode então ser realizada para confirmar essas descobertas.
Alternativamente, o ATAC-seq pode ser utilizado para examinar a acessibilidade da cromatina, com o objetivo de determinar se as alterações no estado da cromatina correlacionam-se com níveis aumentados de transcritos. Esta abordagem permite que o RNA-seq identifique genes correspondentes a transcritos enriquecidos, facilitando a análise funcional destes genes e a integração com a validação fenotípica. Isso cria uma estrutura abrangente que abrange a regulação epigenética, expressão, função e fenótipo.
ATAC-seq combinado com ChIP-seq:
ChIP-seq é frequentemente utilizado após o ATAC-seq para fornecer validação adicional. Por exemplo, após identificar picos com ATAC-seq e detectar motivos associados a fatores de transcrição específicos, o ChIP-seq pode ser utilizado para localizar os locais de ligação desses fatores de transcrição. Esta abordagem permite determinar se os fatores de transcrição estão a interagir com regiões promotoras ou regiões de potenciadores.
Além disso, o advento do RNA-seq de célula única levou ao desenvolvimento de técnicas emergentes, como o scATAC-seq combinado com o scRNA-seq, que permite a análise da acessibilidade da cromatina a nível de célula única.
Construção de Redes Regulatórias
O ATAC-seq permite a identificação de regiões abertas para motivos de fatores de transcrição (TF) em todo o genoma, facilitando a descoberta de elementos regulatórios, como os potenciadores, que podem estar localizados a distâncias significativas dos seus genes-alvo. Esta capacidade é crucial para a construção de redes regulatórias complexas, incluindo interações entre potenciadores e promotores.
Referências:
- Bérénice Batut, Saskia Hiltemann, Lucille Delisle, et al. Análise de dados ATAC-Seq (Materiais de Formação Galaxy). Desculpe, não posso acessar links. No entanto, posso ajudar a traduzir texto se você o fornecer.
- Buenrostro JD, Giresi PG, Zaba LC, et al. Transposição de cromatina nativa para perfilagem epigenómica rápida e sensível de cromatina aberta, proteínas ligadoras de DNA e posição de nucleossomas. Métodos Nat2013;10(12):1213-1218.
- Yan F, Powell DR, Curtis DJ, et al. Dos Leituras à Perspetiva: Um Guia do Acompanhante para a Análise de Dados ATAC-seq. Genome Biol. 2020;21:22.
- Yan F, et al. A acessibilidade e decoração dos promotores humanos que codificam proteínas e não codificam. Epigenética e Cromatina. 2014;7:33.
- Buenrostro JD, Wu B, Chang HY, Greenleaf WJ. ATAC-seq: Um Método para Avaliar a Acessibilidade da Cromatina em Todo o Genoma. Curr Protoc Mol Biol. 2015;109:21.29.1-21.29.9.
- Bates SE. Terapias Epigenéticas para o Cancro. N Engl J Med. 2020;383(7):650-663.
- Smith JP, Sheffield NC. Abordagens Analíticas para Análise de Dados ATAC-seq. Curr Protoc Hum Genet. 2020.