Fluxo de Trabalho de Análise de Dados para Sequenciação Cut&Tag: Dos Leituras Brutas a Insights Biológicos

Sequenciação Cut & Tag tornou-se uma técnica poderosa na biologia molecular, permitindo que os investigadores estudem interações proteína-DNA com alta especificidade e sensibilidade. Este método pode identificar locais de ligação para fatores de transcrição, histonas e outras proteínas a nível genómico. No entanto, para realizar plenamente o potencial dos dados de Cut & Tag, é essencial um fluxo de trabalho de análise de dados abrangente. Este artigo descreve os passos chave na análise de dados de sequenciação Cut & Tag, desde os dados de sequenciação brutos até às percepções biológicas.

Data processing flow and different types of enriched epigenetic signals.Fluxo de processamento de dados e diferentes tipos de sinais epigenéticos enriquecidos (Cheng S et al., 2024)

I. Controlo de Qualidade dos Dados e Pré-processamento

1.1 Avaliação da Qualidade dos Dados Brutos

O FastQC foi utilizado para realizar verificações de qualidade multidimensionais nos dados de sequenciamento brutos em formato FASTQ, com foco nos seguintes indicadores principais:

  • Distribuição da Qualidade Base: A precisão de sequenciamento em cada posição foi avaliada utilizando um gráfico de pontuação de qualidade por base, exigindo que todas as bases tivessem um valor Q ≥ 20 (correspondente a uma taxa de erro ≤ 1%).
  • Análise de Contaminação de Adaptadores: A distribuição do conteúdo de GC por sequência foi detetada para identificar picos anormais (como flutuações de conteúdo de GC específicas para adaptadores Illumina).
  • Distribuição do Comprimento da Sequência: Fragmentos curtos causados por truncamento de sequenciação foram excluídos (intervalo normal: 50-150 pb).

O MultiQC foi utilizado para integrar vários resultados de controlo de qualidade e gerar um relatório de visualização (incluindo um histograma de distribuição de pontuações de qualidade, um mapa de calor da proporção de sequências repetitivas, etc.).

1.2 Estratégias de Limpeza de Dados

  • Corte de Adaptadores: Para dados de sequenciação de extremidades emparelhadas, a primeira sequência de adaptador de 19 bp foi removida utilizando o Cutadapt (parâmetro -a AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC).
  • Filtragem de Baixa Qualidade: O corte dinâmico foi realizado utilizando o Trimmomatic, com uma janela deslizante (janela de 4 bp, qualidade média ≥15), retendo leituras válidas com ≥36 bp de comprimento.
  • Remoção de Sequências Repetitivas: O Picard MarkDuplicates foi utilizado para identificar leituras duplicadas geradas pela amplificação por PCR (mantendo leituras alinhadas de forma única).

II. Alinhamento de Sequências e Chamada de Picos

2.1 Alinhamento do Genoma de Referência

  • Parâmetros Chave: Utilize o modo `--very-sensitive-local` do Bowtie2 (adaptando-se às características de clivagem do Tn5) e `-N 1` (permitindo discrepâncias de uma única base) para garantir um alinhamento eficaz de fragmentos de baixa qualidade.
  • Versão do Genoma: Recomenda-se que os humanos utilizem hg38, os ratos mm10, e a versão deve ser consistente com o arquivo de anotação.

2.2 Chamada de Pico

  • Modificações de Histonas: Ative o modo de pico amplo (`--broad`) e um limiar relaxado (`--broad-cutoff 0.1`) para capturar regiões contínuas de cromatina aberta.
  • Fatores de Transcrição: Utilize o modo de pico estreito (`--narrow`), combinado com `--shift 100` e `--extsize 200` para compensar o viés de clivagem do Tn5.

GoPeaks e MACS2 apresentam um desempenho superior ao SEACR na identificação de uma variedade de tamanhos de picos H3K4me3 (Yashar WM et al., 2022)

2.3 Normas de Controlo de Qualidade

  • Valor FRiP: Modificações de histonas ≥5%, fatores de transcrição ≥15%, refletindo a especificidade do sinal.
  • Comprimento do pico: Largura do pico de modificação de histonas > 1 kb, largura do pico de fator de transcrição < 500 bp, distinguindo diferenças nas características biológicas.

2.4 Validação de Dados

  • Filtragem de sequências repetitivas: o viés de amplificação por PCR foi removido usando o Picard MarkDuplicates.
  • Configurações de controlo: Devem ser incluídos controlos de entrada ou IgG para melhorar a relação sinal-ruído.

III. Anotação Funcional e Interpretação Biológica

3.1 Análise de Anotação de Picos

  • Ferramentas e Parâmetros: Utilize o ChIPseeker (pacote R), defina o intervalo da região promotora (TSS±3kb) e associe-o a anotações do genoma (por exemplo, TxDb para hg38).
  • Análise Chave:
    • Distribuição da Região do Gene: Diferenciar regiões promotoras (TSS±1kb), regiões de potenciadores (enriquecidas em H3K27ac), etc.
    • Anotação Funcional: GO (função molecular/processo biológico), enriquecimento de via KEGG (p<0,01, FDR<5%).
    • Controlo de Qualidade: Percentagem da região promotora ≥30%, valor FRiP ≥5% (histona) ou ≥15% (fator de transcrição).

3.2 Construção de Redes Regulatórias Dinâmicas

  • Ferramentas: GREAT, ficheiro de pico de entrada e anotações do genoma, definir regiões regulatórias (por exemplo, 500bp a montante a 1kb a jusante).
  • Lista de genes alvo diretos e diagrama da rede regulatória.
  • Estudo de Caso: H3K4me3 foi significativamente enriquecido nas regiões promotoras dos genes da via WNT (p=2.3e-8), sugerindo ativação da via.

3.3 Significado Biológico

  • Análise do Mecanismo: A ligação de modificações epigenéticas (por exemplo, H3K27ac) com a expressão génica revela a atividade de potenciadores/promotores.
  • Aplicação: Validação de redes regulatórias usando RNA-seq dados para orientar a triagem de alvos de doenças (por exemplo, vias anormalmente modificadas no câncer).

IV. Visualização de Dados e Relatórios

4.1 Visualização da Distribuição do Sinal

  • Gráfico de Trajetória IGV: Compara a intensidade do sinal entre grupos de tratamento e controlo, localizando regiões diferencialmente expressas (por exemplo, alta expressão de H3K27ac em regiões de potenciadores).
  • Mapa de calor: Exibe padrões de enriquecimento de sinal em regiões específicas (promotores, potenciadores) com alta resolução (por exemplo, --binSize 10).
  • Trajetória de Distribuição Cromossómica: Fornece uma visão panorâmica da distribuição de sinais em todo o genoma, identificando enriquecimentos específicos de cromossomas (por exemplo, sinal aumentado em cromossomas que contêm oncogenes).

4.2 Estratégia de Análise Diferencial

  • Ferramentas: DiffBind (pacote R), integrando arquivos BAM e Peak para analisar diferenças entre grupos.
  • Parâmetros Chave:
    • FDR ≤ 0,05: Controla a taxa de falsos positivos.
    • Sobreposição mínima ≥ 50%: Garante a reprodutibilidade.
    • Mudança de dobra ≥ 2 vezes: Demonstra significado biológico.
  • Resultados de Saída:
    • Lista de Picos Diferenciais: Inclui localização, comprimento, alteração de dobra e genes associados.
    • Enriquecimento funcional: a análise de GO (processo biológico/função molecular) e de vias KEGG revelou mecanismos regulatórios.

V. Otimização do Fluxo de Trabalho e Precauções

5.1 Principais Pontos de Controlo de Qualidade

Passo Indicador de Detecção Norma de Qualificação Plano de Manuseio Anormal
Controlo de Qualidade Valor Q do FastQC Todas as bases ≥ 20 Re-sequenciar ou aparar
Alinhamento Taxa de Alinhamento Global ≥ 80% Verificar a versão do genoma/contaminação
Chamada de Pico Valor FRiP Histona ≥ 5%, TF ≥ 15% Ajustar parâmetros de chamada de pico
Anotação Percentagem da Região Promotora ≥ 30% Verificar a especificidade do anticorpo

5.2 Soluções para Problemas Comuns

  • Baixo valor de FRiP: Verifique a especificidade do anticorpo (usando controlo de IgG), otimize as condições de fragmentação da cromatina.
  • Ligação não específica: Aumentar o número de etapas de lavagem (por exemplo, utilizando tampões com alta concentração de sal), encurtar o tempo da reação de transposição.
  • Anomalias na Visualização de Dados: Verificar a consistência da versão do genoma (por exemplo, diferenças na nomenclatura dos cromossomas entre hg38 e hg19).

VI. Pontos de Controlo de Qualidade Chave

Passo Indicador de Detecção Norma de Qualificação Ferramenta/Parâmetros Objetivo Plano de Manuseio Anormal
Controlo de Qualidade Valor Q do FastQC Todas as bases ≥ 20 FastQC/Q-score ≥ 20 Excluir dados de baixa qualidade Re-sequenciar ou aparar
Alinhamento Taxa de Alinhamento Geral ≥ 80% Bowtie2 -N 1 Localizar precisamente as origens de fragmentos de DNA Verificar a versão do genoma/contaminação
Chamada de Pico Valor FRiP Histona ≥ 5%, TF ≥ 15% MACS2 --amplo Distinguir picos amplos de modificação de histonas Ajustar parâmetros de chamada de pico
Anotação Percentagem da Região Promotora ≥ 30% ChIPseeker TSS ± 3kb Associar regiões funcionais de genes Verificar a especificidade dos anticorpos

Referências e Ferramentas

  • Versões das Ferramentas Principais:
  • MACS2 2.2.6 (Suporta aceleração multi-threaded)
  • ChIPseeker 1.28.0 (Integra a mais recente anotação do genoma)
  • deepTools 3.5.1 (Suporta computação acelerada por GPU)
  • Especificações de Armazenamento de Dados:
    • Dados Brutos: FASTQ.gz (Mantém a informação original do índice)
    • Ficheiros Intermediários: BAM (ordenar + índice), BED (compressão zero)
    • Saída Final: BigWig (sinal normalizado), PDF (imagem vetorial)

Performance comparison of bioinformatics tools in the peak calling analysis of narrow-type CUT and Tag data.Comparação de desempenho de ferramentas de bioinformática na análise de chamada de picos de dados CUT&Tag de tipo estreito (Cheng S et al., 2024)

VII. Análise Aprofundada dos Cenários de Aplicação

7.1 Pesquisa sobre Heterogeneidade Epigenética

  • Li C et al., através da análise de dados CUT & Tag e processamento de dados de sequenciação (alinhamento Bowtie2, recuperação de picos MACS3), identificaram 2067 locais de ligação do NICD1 no genoma (44,84% localizados perto do TSS, incluindo genes-alvo conhecidos HES1/HES4). A análise de motivos HOMER foi utilizada para identificar elementos regulatórios, e a visualização IGV foi usada para anotar as posições dos picos. Integrando RNA-seq (A expressão knockout de NOTCH1), 31 genes-alvo (como o USP5, cujo sinal de pico é apenas superado pelo HES1) foram analisados. A imunofluorescência foi utilizada para verificar a correlação positiva entre a expressão de NICD1 e USP5, revelando, em última análise, o mecanismo pelo qual a sinalização Notch regula diretamente a transcrição de genes-alvo e promove a angiogénese através de NICD1. O cerne deste estudo é a análise das características de ligação genómica de NICD1 e da rede regulatória a montante.
  • Tao X et al. construíram duas réplicas biológicas de H3K4me3 CUT&Tag (com IgG como controlo) e realizaram experiências de ChIP em paralelo. Após verificar a qualidade dos fragmentos (~350 bp) utilizando qubits e mapeamento. NGS leituras para o genoma de referência, descobriram que o grupo experimental CUT&Tag tinha uma correlação extremamente baixa com o controlo IgG (r=0,01, baixo fundo), e a intensidade do sinal, após normalização, era significativamente mais alta do que a de ChIP-seq (A correlação ChIP com o controlo simulado r=0,89, relação sinal-ruído fraca). A distribuição dos picos mostrou que 60-70% do sinal H3K4me3 estava enriquecido no promotor de 1 kb e no primeiro exon/intrão (consistente com ChIP), e os resultados da verificação da correlação dos picos próximos ao gene eram fiáveis.CUT&Tag duas réplicas r=0,94, comparadas com ChIP r=0,71). Isto demonstra que o CUT&Tag requer menos material inicial e pode gerar sinais de alta resolução com baixo ruído de fundo, tornando-o adequado para uma ampla gama de estudos epigenéticos em plantas.

7.2 Análise da Rede Regulatória do Desenvolvimento

Akdogan-Ozdilek B et al. utilizaram embriões de zebrafish na fase de barreira completa como material em CUT&Tag. Através de um protocolo mamífero modificado (combinado com CUT&RUN), geraram mapas de enriquecimento de alta resolução de H3K4me3, H3K27me3, H3K9me3, RNA polimerase II e H2A.Z. Os dados de sequenciamento passaram por remoção de adaptadores via CutAdapt, alinhamento do genoma de zebrafish com Bowtie2 (GRCz.11), filtragem de leituras não mapeadas com samtools e remoção de repetições de PCR com picard. Os dados foram então analisados usando macs2 e processados por deepTools para gerar trajetórias genómicas e heatmaps/esboços, proporcionando uma análise central da paisagem de cromatina do embrião de zebrafish. A identificação de subconjuntos de genes que podem ser regulados bivalentemente durante o desenvolvimento gástrico em zebrafish e em camundongos fornece evidências para a evolução de H2A.Z. Um sinal robusto de H2A.Z foi detectado em embriões na fase de barreira completa, com enriquecimento em promotores de genes (consistente com estudos anteriores). Aproximadamente 74% dos genes marcadores de H2A.Z foram expressos durante a fase de proteção (TPM>0.5).

CUT&Tag detects H2A.Z in shield stage zebrafish embryos.CUT&Tag detecta H2A.Z em embriões de zebrafish em estágio de escudo (Akdogan-Ozdilek B et al., 2021)

Resumo

Através deste fluxo de trabalho, os investigadores podem analisar sistematicamente os dados CUT & Tag, formando uma cadeia completa de evidências desde a validação técnica até a interpretação do mecanismo. Recomenda-se atualizar regularmente os ficheiros de anotação do genoma (por exemplo, utilizando a versão 109 do Ensembl) e estabelecer uma base de dados de limiares de controlo de qualidade específica do laboratório.

Referências:

  1. Cheng S, Miao B, Li T, Zhao G, Zhang B. Rever e Avaliar as Estratégias de Análise Bioinformática dos Dados ATAC-seq e CUT&Tag. Genómica Proteómica Bioinformática2024 Set 13;22(3):qzae054.
  2. Li C, Wu P, Xie X, Chen X, Chen L, Zhu L, Xuan Z, Liu T, Tan W, Zhang S, Lin D, Wu C. A sinalização aberrante do Notch promove a angiogénese tumoral no carcinoma de células escamosas do esófago.. Transdução de Sinal e Terapia Alvo2025 Jul 22;10(1):233. doi: 10.1038/s41392-025-02309-5. Errata em: Signal Transduct Target Ther. 2025 Aug 31;10(1):288.
  3. Yashar WM, Kong G, VanCampen J, Curtiss BM, Coleman DJ, Carbone L, Yardimci GG, Maxson JE, Braun TP. GoPeaks: chamada de picos de modificação de histonas para CUT&Tag. Genome Biol. 2022 4 de Jul;23(1):144.
  4. Tao X, Feng S, Zhao T, Guan X. Perfilagem eficiente da modificação H3K4me3 na cromatina em algodão utilizando CUT&Tag. Métodos de Plantas2020, 31 de agosto; 16:120.
  5. Akdogan-Ozdilek B, Duval KL, Meng FW, Murphy PJ, Goll MG. Identificação de estados da cromatina durante a gastrulação de zebrafish usando CUT&RUN e CUT&Tag. Dev Dyn. Abril de 2022; 251(4):729-742.
Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Download PDF
* Endereço de Email:

A CD Genomics precisa das informações de contacto que nos fornece para poder contactá-lo sobre os nossos produtos e serviços e outros conteúdos que possam ser do seu interesse. Ao clicar abaixo, consente o armazenamento e processamento das informações pessoais submetidas acima pela CD Genomics para fornecer o conteúdo que solicitou.

×
Pedido de Cotação
! Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo