Como Analisar Dados de ChIP-Seq: Desde o Pré-processamento de Dados até a Análise Posterior

As interacções entre DNA e proteínas são amplamente utilizadas para elucidar potenciais mecanismos da fisiologia celular. O desenvolvimento de ensaios de imunoprecipitação de cromatina (ChIP) tornou possível estudar tais mecanismos. Com novos desenvolvimentos, as tecnologias de sequenciação profunda (ChIP-Seq) surgiram, que oferecem vantagens em termos de especificidade e sensibilidade.

Neste artigo, forneceremos uma visão detalhada dos passos envolvidos na análise de ChIP-seq e das melhores práticas para garantir resultados precisos e fiáveis.

Workflow of ChIP sequencing and data analysis Fluxo de trabalho de sequenciação ChIP e análise de dados (Ryuichiro Nakato)

Controlo de Qualidade e Corte de Leitura

O primeiro passo na análise de ChIP-seq é o controlo de qualidade das leituras de sequenciação. O controlo de qualidade envolve a avaliação da qualidade das leituras de sequenciação brutas utilizando ferramentas como FastQC ou Trimmomatic. O controlo de qualidade assegura que os dados são de alta qualidade e adequados para análises subsequentes. Após o controlo de qualidade, as leituras são aparadas para remover bases de baixa qualidade ou adaptadores utilizando ferramentas como Cutadapt ou Trimmomatic. Temos um rigoroso processo de manuseio de dados brutos que remove leituras de baixa qualidade, sequências de adaptadores e leituras com baixa qualidade de mapeamento.

Métricas Importantes de Controlo de Qualidade de Dados ChIP-seq

O controlo de qualidade (CQ) do ChIP-seq é crítico para determinar se os dados de sequenciação são de alta qualidade e podem ser analisados posteriormente. Algumas das métricas particularmente importantes incluem:

RácioA proporção de leituras sequenciadas que refletem a qualidade das leituras e o DNA genómico.

Profundidade de leitura (número de leituras comparadas após a remoção de redundâncias). O consórcio ENCODE recomenda um mínimo de 10M de leituras unicamente correspondentes como o valor mínimo de picos em modo agudo para a análise de amostras humanas. Os marcadores de histonas amplas normalmente têm uma relação sinal-ruído mais fraca e requerem mais leituras (>40M para amostras humanas) como o valor mínimo para a chamada de picos.

Complexidade da biblioteca (rácio de leituras não redundantes). Variando de 0 a 1, o ENCODE considera que a complexidade do rácio de 10M de leituras deve ser > 0,8.

Coeficiente de fio normalizado (NSC, calculado pelo SSP). métricas de sinal-para-ruído (S/N) para picos agudos e amplos, com limiares recomendados de NSC > 5.0 (picos agudos) e NSC > 1.5 (picos amplos), utilizando a base de dados pública de ChIP-seq 10M para validação aprofundada em múltiplas espécies. As amostras de entrada devem ter S/N baixo e, portanto, os valores de NSC devem ser < 2.0.

Uniformidade do fundo (Bu). bu reflete a desvio da distribuição de leituras na região de fundo, variando de 0 a 1. Um valor baixo de bu (<0,8) indica que a distribuição de leituras está mais concentrada do que o esperado ou tem uma preferência, o que geralmente resulta em muitos falsos positivos entre os picos obtidos. Para genomas com variação extensa no número de cópias (por exemplo, células MCF-7), é necessário um limite de Bu mais relaxado (>0,6).

Desvio de pico GC. Refletindo as preferências durante a imunoprecipitação e a amplificação por PCR, os dados de ChIP-seq apresentam tipicamente picos de GC semelhantes aos do genoma de referência. (O viés de GC (por exemplo, ~50% em humanos) é frequentemente exibido (por exemplo, >60% em humanos) devido a preferências de amplificação por PCR e/ou picos falsos positivos de regiões "super-enriquecidas" associadas a ilhas de CpG.

Alinhamento

O próximo passo na análise de ChIP-seq é o alinhamento das leituras de sequenciamento ao genoma ou transcriptoma de referência. O alinhamento ou mapeamento é tipicamente realizado utilizando software de alinhamento como Bowtie, BWA ou HISAT2. O alinhamento garante que as leituras sejam mapeadas para a localização genómica correta, e é essencial usar parâmetros de alinhamento apropriados para garantir um alinhamento preciso. Utilizamos diferentes ferramentas de mapeamento dependendo das suas necessidades específicas ou do projeto, como o tamanho do genoma, a profundidade de sequenciamento e as suas questões de investigação.

Chamada de Picos a partir de dados de ChIP-Seq

Os picos são regiões do genoma onde a proteína de interesse está ligada. A chamada de picos é o processo de identificação de picos a partir de leituras de sequenciamento alinhadas. A ligação de diferentes proteínas ao DNA pode ser classificada de acordo com as características de largura e distribuição dos picos, pico estreito (ou seja, uma sequência curta específica que ocorre no DNA com uma região de ligação curta) e pico amplo (que está difusamente e continuamente distribuído no DNA com um padrão de pico largo). Vários algoritmos de chamada de picos estão disponíveis, como MACS2, SICER e PeakSeq. É essencial usar parâmetros de chamada de picos apropriados para garantir uma chamada de picos precisa. Picos falsos positivos podem ser removidos usando ferramentas como HOMER ou BEDTools.

Controlo de Qualidade da Chamada de Picos

Após a chamada de picos, são aplicadas medidas de controlo de qualidade para garantir que os picos são de alta qualidade e não falsos positivos. As medidas de controlo de qualidade incluem a avaliação da forma do pico, enriquecimento e anotação dos picos. O HOMER pode ser utilizado para anotar os picos e identificar motivos enriquecidos.

Análise Funcional

A análise de motivos investiga sequências específicas em picos ou regiões epigenómicas específicas (por exemplo, locais de potenciadores) e prevê possíveis locais de ligação de fatores de transcrição dentro das regiões identificadas. Em geral, os métodos de análise de motivos podem ser divididos em dois tipos:

descoberta de novos motivos de ligação, utilizada para identificar potenciais novos motivos de ligação para fatores desconhecidos que aparecem na maioria dos picos;
escaneamento de motivos, utilizado para prever e alinhar a semelhança das sequências de DNA fornecidas com todos os motivos conhecidos na base de dados.

Os picos de ChIP-seq também podem ser utilizados para análise de enriquecimento funcional. Esta análise sequencia genes próximos como potenciais alvos para marcação bidirecional ou sequenciação quantitativa e agrupa-os por análise GO ou KEGG.

Principais Passos da Mineração de Dados ChIP-seq

mapeamento ChIP-seq: identificar a distribuição de picos ou leituras no genoma, o enriquecimento de picos em componentes genómicos, a distribuição de picos em componentes génicos, análise de motivos de picos, análise da distância de picos em relação aos loci de TSS e análise funcional de genes modificados por picos.
Triagem de picos e genes diferenciais específicosa identificação de picos diferenciais específicos e genes. Este passo inclui a identificação de picos diferenciais, estratégias de análise para dados não cronológicos, estratégias de análise para dados cronológicos, análise funcional de genes associados a picos diferenciais, análise de PPI de genes associados a picos diferenciais e apresentação visual de regiões-alvo de interesse.
ChIP-seq e transcriptómica análise de associaçãoa associação correspondente de genes associados a picos com genes diferencialmente expressos (DEGs), triagem de regiões-alvo e genes-alvo. O objetivo desta etapa é identificar os genes que são diretamente regulados pela proteína de interesse e entender como as alterações na ligação da proteína impactam a expressão gênica.
Design experimental a jusanteÉ fundamental para confirmar os resultados da análise de ChIP-seq e para fornecer informações adicionais sobre a importância funcional dos locais de ligação das proteínas. Dependendo da questão de pesquisa e dos dados, podem ser necessários experimentos adicionais para validar as regiões-alvo e os genes-alvo candidatos para a ligação de fatores de transcrição/modificações de histonas.

A análise de ChIP-seq é um processo complexo que requer uma compreensão profunda e aplicação da biologia subjacente e das ferramentas de bioinformática. A CD Genomics oferece produtos de alta qualidade. Serviços de análise de ChIP-Seq a investigadores e empresas em todo o mundo, incluindo design de projetos, aquisição de dados, análise de dados brutos e design de experimentos subsequentes. A nossa equipa profissional fornece relatórios de análise personalizados, incluindo controlo de qualidade, mapeamento, identificação de picos, anotação e visualização.

Referência

Ryuichiro Nakato, Toyonori Sakata, Métodos para análise de ChIP-seq: Um fluxo de trabalho prático e aplicações avançadas, Métodos, Volume 187, 2021, Páginas 44-53, ISSN 1046-2023.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados