Fluxo de Trabalho de Análise de Dados para Sequenciação Cut&Tag: Dos Leituras Brutas a Insights Biológicos
Sequenciação Cut & Tag tornou-se uma técnica poderosa na biologia molecular, permitindo que os investigadores estudem interações proteína-DNA com alta especificidade e sensibilidade. Este método pode identificar locais de ligação para fatores de transcrição, histonas e outras proteínas a nível genómico. No entanto, para realizar plenamente o potencial dos dados de Cut & Tag, é essencial um fluxo de trabalho de análise de dados abrangente. Este artigo descreve os passos chave na análise de dados de sequenciação Cut & Tag, desde os dados de sequenciação brutos até às percepções biológicas.
Fluxo de processamento de dados e diferentes tipos de sinais epigenéticos enriquecidos (Cheng S et al., 2024)
I. Controlo de Qualidade dos Dados e Pré-processamento
1.1 Avaliação da Qualidade dos Dados Brutos
O FastQC foi utilizado para realizar verificações de qualidade multidimensionais nos dados de sequenciamento brutos em formato FASTQ, com foco nos seguintes indicadores principais:
- Distribuição da Qualidade Base: A precisão de sequenciamento em cada posição foi avaliada utilizando um gráfico de pontuação de qualidade por base, exigindo que todas as bases tivessem um valor Q ≥ 20 (correspondente a uma taxa de erro ≤ 1%).
- Análise de Contaminação de Adaptadores: A distribuição do conteúdo de GC por sequência foi detetada para identificar picos anormais (como flutuações de conteúdo de GC específicas para adaptadores Illumina).
- Distribuição do Comprimento da Sequência: Fragmentos curtos causados por truncamento de sequenciação foram excluídos (intervalo normal: 50-150 pb).
O MultiQC foi utilizado para integrar vários resultados de controlo de qualidade e gerar um relatório de visualização (incluindo um histograma de distribuição de pontuações de qualidade, um mapa de calor da proporção de sequências repetitivas, etc.).
1.2 Estratégias de Limpeza de Dados
- Corte de Adaptadores: Para dados de sequenciação de extremidades emparelhadas, a primeira sequência de adaptador de 19 bp foi removida utilizando o Cutadapt (parâmetro -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC).
- Filtragem de Baixa Qualidade: O corte dinâmico foi realizado utilizando o Trimmomatic, com uma janela deslizante (janela de 4 bp, qualidade média ≥15), retendo leituras válidas com ≥36 bp de comprimento.
- Remoção de Sequências Repetitivas: O Picard MarkDuplicates foi utilizado para identificar leituras duplicadas geradas pela amplificação por PCR (mantendo leituras alinhadas de forma única).
II. Alinhamento de Sequências e Chamada de Picos
2.1 Alinhamento do Genoma de Referência
- Parâmetros Chave: Utilize o modo `--very-sensitive-local` do Bowtie2 (adaptando-se às características de clivagem do Tn5) e `-N 1` (permitindo discrepâncias de uma única base) para garantir um alinhamento eficaz de fragmentos de baixa qualidade.
- Versão do Genoma: Recomenda-se que os humanos utilizem hg38, os ratos mm10, e a versão deve ser consistente com o arquivo de anotação.
2.2 Chamada de Pico
- Modificações de Histonas: Ative o modo de pico amplo (`--broad`) e um limiar relaxado (`--broad-cutoff 0.1`) para capturar regiões contínuas de cromatina aberta.
- Fatores de Transcrição: Utilize o modo de pico estreito (`--narrow`), combinado com `--shift 100` e `--extsize 200` para compensar o viés de clivagem do Tn5.
GoPeaks e MACS2 apresentam um desempenho superior ao SEACR na identificação de uma variedade de tamanhos de picos H3K4me3 (Yashar WM et al., 2022)
2.3 Normas de Controlo de Qualidade
- Valor FRiP: Modificações de histonas ≥5%, fatores de transcrição ≥15%, refletindo a especificidade do sinal.
- Comprimento do pico: Largura do pico de modificação de histonas > 1 kb, largura do pico de fator de transcrição < 500 bp, distinguindo diferenças nas características biológicas.
2.4 Validação de Dados
- Filtragem de sequências repetitivas: o viés de amplificação por PCR foi removido usando o Picard MarkDuplicates.
- Configurações de controlo: Devem ser incluídos controlos de entrada ou IgG para melhorar a relação sinal-ruído.
III. Anotação Funcional e Interpretação Biológica
3.1 Análise de Anotação de Picos
- Ferramentas e Parâmetros: Utilize o ChIPseeker (pacote R), defina o intervalo da região promotora (TSS±3kb) e associe-o a anotações do genoma (por exemplo, TxDb para hg38).
- Análise Chave:
- Distribuição da Região do Gene: Diferenciar regiões promotoras (TSS±1kb), regiões de potenciadores (enriquecidas em H3K27ac), etc.
- Anotação Funcional: GO (função molecular/processo biológico), enriquecimento de via KEGG (p<0,01, FDR<5%).
- Controlo de Qualidade: Percentagem da região promotora ≥30%, valor FRiP ≥5% (histona) ou ≥15% (fator de transcrição).
3.2 Construção de Redes Regulatórias Dinâmicas
- Ferramentas: GREAT, ficheiro de pico de entrada e anotações do genoma, definir regiões regulatórias (por exemplo, 500bp a montante a 1kb a jusante).
- Lista de genes alvo diretos e diagrama da rede regulatória.
- Estudo de Caso: H3K4me3 foi significativamente enriquecido nas regiões promotoras dos genes da via WNT (p=2.3e-8), sugerindo ativação da via.
3.3 Significado Biológico
- Análise do Mecanismo: A ligação de modificações epigenéticas (por exemplo, H3K27ac) com a expressão génica revela a atividade de potenciadores/promotores.
- Aplicação: Validação de redes regulatórias usando RNA-seq dados para orientar a triagem de alvos de doenças (por exemplo, vias anormalmente modificadas no câncer).
IV. Visualização de Dados e Relatórios
4.1 Visualização da Distribuição do Sinal
- Gráfico de Trajetória IGV: Compara a intensidade do sinal entre grupos de tratamento e controlo, localizando regiões diferencialmente expressas (por exemplo, alta expressão de H3K27ac em regiões de potenciadores).
- Mapa de calor: Exibe padrões de enriquecimento de sinal em regiões específicas (promotores, potenciadores) com alta resolução (por exemplo, --binSize 10).
- Trajetória de Distribuição Cromossómica: Fornece uma visão panorâmica da distribuição de sinais em todo o genoma, identificando enriquecimentos específicos de cromossomas (por exemplo, sinal aumentado em cromossomas que contêm oncogenes).
4.2 Estratégia de Análise Diferencial
- Ferramentas: DiffBind (pacote R), integrando arquivos BAM e Peak para analisar diferenças entre grupos.
- Parâmetros Chave:
- FDR ≤ 0,05: Controla a taxa de falsos positivos.
- Sobreposição mínima ≥ 50%: Garante a reprodutibilidade.
- Mudança de dobra ≥ 2 vezes: Demonstra significado biológico.
- Resultados de Saída:
- Lista de Picos Diferenciais: Inclui localização, comprimento, alteração de dobra e genes associados.
- Enriquecimento funcional: a análise de GO (processo biológico/função molecular) e de vias KEGG revelou mecanismos regulatórios.
V. Otimização do Fluxo de Trabalho e Precauções
5.1 Principais Pontos de Controlo de Qualidade
| Passo | Indicador de Detecção | Norma de Qualificação | Plano de Manuseio Anormal |
| Controlo de Qualidade | Valor Q do FastQC | Todas as bases ≥ 20 | Re-sequenciar ou aparar |
| Alinhamento | Taxa de Alinhamento Global | ≥ 80% | Verificar a versão do genoma/contaminação |
| Chamada de Pico | Valor FRiP | Histona ≥ 5%, TF ≥ 15% | Ajustar parâmetros de chamada de pico |
| Anotação | Percentagem da Região Promotora | ≥ 30% | Verificar a especificidade do anticorpo |
5.2 Soluções para Problemas Comuns
- Baixo valor de FRiP: Verifique a especificidade do anticorpo (usando controlo de IgG), otimize as condições de fragmentação da cromatina.
- Ligação não específica: Aumentar o número de etapas de lavagem (por exemplo, utilizando tampões com alta concentração de sal), encurtar o tempo da reação de transposição.
- Anomalias na Visualização de Dados: Verificar a consistência da versão do genoma (por exemplo, diferenças na nomenclatura dos cromossomas entre hg38 e hg19).
VI. Pontos de Controlo de Qualidade Chave
| Passo | Indicador de Detecção | Norma de Qualificação | Ferramenta/Parâmetros | Objetivo | Plano de Manuseio Anormal |
| Controlo de Qualidade | Valor Q do FastQC | Todas as bases ≥ 20 | FastQC/Q-score ≥ 20 | Excluir dados de baixa qualidade | Re-sequenciar ou aparar |
| Alinhamento | Taxa de Alinhamento Geral | ≥ 80% | Bowtie2 -N 1 | Localizar precisamente as origens de fragmentos de DNA | Verificar a versão do genoma/contaminação |
| Chamada de Pico | Valor FRiP | Histona ≥ 5%, TF ≥ 15% | MACS2 --amplo | Distinguir picos amplos de modificação de histonas | Ajustar parâmetros de chamada de pico |
| Anotação | Percentagem da Região Promotora | ≥ 30% | ChIPseeker TSS ± 3kb | Associar regiões funcionais de genes | Verificar a especificidade dos anticorpos |
Referências e Ferramentas
- Versões das Ferramentas Principais:
- MACS2 2.2.6 (Suporta aceleração multi-threaded)
- ChIPseeker 1.28.0 (Integra a mais recente anotação do genoma)
- deepTools 3.5.1 (Suporta computação acelerada por GPU)
- Especificações de Armazenamento de Dados:
- Dados Brutos: FASTQ.gz (Mantém a informação original do índice)
- Ficheiros Intermediários: BAM (ordenar + índice), BED (compressão zero)
- Saída Final: BigWig (sinal normalizado), PDF (imagem vetorial)
Comparação de desempenho de ferramentas de bioinformática na análise de chamada de picos de dados CUT&Tag de tipo estreito (Cheng S et al., 2024)
VII. Análise Aprofundada dos Cenários de Aplicação
7.1 Pesquisa sobre Heterogeneidade Epigenética
- Li C et al., através da análise de dados CUT & Tag e processamento de dados de sequenciação (alinhamento Bowtie2, recuperação de picos MACS3), identificaram 2067 locais de ligação do NICD1 no genoma (44,84% localizados perto do TSS, incluindo genes-alvo conhecidos HES1/HES4). A análise de motivos HOMER foi utilizada para identificar elementos regulatórios, e a visualização IGV foi usada para anotar as posições dos picos. Integrando RNA-seq (A expressão knockout de NOTCH1), 31 genes-alvo (como o USP5, cujo sinal de pico é apenas superado pelo HES1) foram analisados. A imunofluorescência foi utilizada para verificar a correlação positiva entre a expressão de NICD1 e USP5, revelando, em última análise, o mecanismo pelo qual a sinalização Notch regula diretamente a transcrição de genes-alvo e promove a angiogénese através de NICD1. O cerne deste estudo é a análise das características de ligação genómica de NICD1 e da rede regulatória a montante.
- Tao X et al. construíram duas réplicas biológicas de H3K4me3 CUT&Tag (com IgG como controlo) e realizaram experiências de ChIP em paralelo. Após verificar a qualidade dos fragmentos (~350 bp) utilizando qubits e mapeamento. NGS leituras para o genoma de referência, descobriram que o grupo experimental CUT&Tag tinha uma correlação extremamente baixa com o controlo IgG (r=0,01, baixo fundo), e a intensidade do sinal, após normalização, era significativamente mais alta do que a de ChIP-seq (A correlação ChIP com o controlo simulado r=0,89, relação sinal-ruído fraca). A distribuição dos picos mostrou que 60-70% do sinal H3K4me3 estava enriquecido no promotor de 1 kb e no primeiro exon/intrão (consistente com ChIP), e os resultados da verificação da correlação dos picos próximos ao gene eram fiáveis.CUT&Tag duas réplicas r=0,94, comparadas com ChIP r=0,71). Isto demonstra que o CUT&Tag requer menos material inicial e pode gerar sinais de alta resolução com baixo ruído de fundo, tornando-o adequado para uma ampla gama de estudos epigenéticos em plantas.
7.2 Análise da Rede Regulatória do Desenvolvimento
Akdogan-Ozdilek B et al. utilizaram embriões de zebrafish na fase de barreira completa como material em CUT&Tag. Através de um protocolo mamífero modificado (combinado com CUT&RUN), geraram mapas de enriquecimento de alta resolução de H3K4me3, H3K27me3, H3K9me3, RNA polimerase II e H2A.Z. Os dados de sequenciamento passaram por remoção de adaptadores via CutAdapt, alinhamento do genoma de zebrafish com Bowtie2 (GRCz.11), filtragem de leituras não mapeadas com samtools e remoção de repetições de PCR com picard. Os dados foram então analisados usando macs2 e processados por deepTools para gerar trajetórias genómicas e heatmaps/esboços, proporcionando uma análise central da paisagem de cromatina do embrião de zebrafish. A identificação de subconjuntos de genes que podem ser regulados bivalentemente durante o desenvolvimento gástrico em zebrafish e em camundongos fornece evidências para a evolução de H2A.Z. Um sinal robusto de H2A.Z foi detectado em embriões na fase de barreira completa, com enriquecimento em promotores de genes (consistente com estudos anteriores). Aproximadamente 74% dos genes marcadores de H2A.Z foram expressos durante a fase de proteção (TPM>0.5).
CUT&Tag detecta H2A.Z em embriões de zebrafish em estágio de escudo (Akdogan-Ozdilek B et al., 2021)
Resumo
Através deste fluxo de trabalho, os investigadores podem analisar sistematicamente os dados CUT & Tag, formando uma cadeia completa de evidências desde a validação técnica até a interpretação do mecanismo. Recomenda-se atualizar regularmente os ficheiros de anotação do genoma (por exemplo, utilizando a versão 109 do Ensembl) e estabelecer uma base de dados de limiares de controlo de qualidade específica do laboratório.
Referências:
- Cheng S, Miao B, Li T, Zhao G, Zhang B. Rever e Avaliar as Estratégias de Análise Bioinformática dos Dados ATAC-seq e CUT&Tag. Genómica Proteómica Bioinformática2024 Set 13;22(3):qzae054.
- Li C, Wu P, Xie X, Chen X, Chen L, Zhu L, Xuan Z, Liu T, Tan W, Zhang S, Lin D, Wu C. A sinalização aberrante do Notch promove a angiogénese tumoral no carcinoma de células escamosas do esófago.. Transdução de Sinal e Terapia Alvo2025 Jul 22;10(1):233. doi: 10.1038/s41392-025-02309-5. Errata em: Signal Transduct Target Ther. 2025 Aug 31;10(1):288.
- Yashar WM, Kong G, VanCampen J, Curtiss BM, Coleman DJ, Carbone L, Yardimci GG, Maxson JE, Braun TP. GoPeaks: chamada de picos de modificação de histonas para CUT&Tag. Genome Biol. 2022 4 de Jul;23(1):144.
- Tao X, Feng S, Zhao T, Guan X. Perfilagem eficiente da modificação H3K4me3 na cromatina em algodão utilizando CUT&Tag. Métodos de Plantas2020, 31 de agosto; 16:120.
- Akdogan-Ozdilek B, Duval KL, Meng FW, Murphy PJ, Goll MG. Identificação de estados da cromatina durante a gastrulação de zebrafish usando CUT&RUN e CUT&Tag. Dev Dyn. Abril de 2022; 251(4):729-742.