Genotipagem por sequenciação (GBS), como uma solução simplificada eficiente e de baixo custo sequenciação do genoma A tecnologia tornou-se o meio central para analisar a diversidade genética das plantas, acelerar a melhoramento de culturas e explorar a base genética de características complexas. Ao simplificar o genoma, o sequenciamento de alto rendimento e a tipagem precisa podem rapidamente obter marcadores genéticos, como um grande número de polimorfismos de nucleotídeo único (SNP) em todo o genoma, fornecendo suporte de dados chave para pesquisas em múltiplos campos, desde a genética populacional até o melhoramento molecular.
No entanto, os dados de sequenciação em grande escala gerados pela tecnologia GBS (geralmente incluindo dezenas de milhares a milhões de locais de mutação e centenas de amostras) impõem requisitos extremamente elevados para a padronização do processo de análise de dados, a adaptabilidade das ferramentas e a fiabilidade dos resultados. Desde o controlo de qualidade, alinhamento de sequências e identificação de genótipos dos dados de sequenciação originais, até à análise da estrutura populacional, localização de genes e apresentação visual, cada passo requer uma seleção rigorosa de métodos e otimização de parâmetros. Ao mesmo tempo, a interferência de genomas complexos (como a poliploidia), os dados ausentes causados por profundidade de sequenciação desigual e a pressão computacional de amostras em grande escala destacam ainda mais a importância de estabelecer um sistema de análise eficiente.
O artigo detalha os fluxos de trabalho de análise de dados de GBS, ferramentas principais (como TASSEL, Stacks, GATK, PLINK), desafios (profundidade desigual, genomas complexos, etc.) com soluções, análise e ferramentas de visualização a montante, e conclui com um resumo da sua importância.
A tecnologia GBS tem sido amplamente utilizada na genética de plantas, melhoramento de culturas e pesquisa sobre a evolução da população devido às suas vantagens de alta capacidade e baixo custo. O processo de análise de dados é o elo central entre os dados de sequenciamento originais e as conclusões biológicas, e necessita de uma padronização rigorosa para garantir a fiabilidade dos resultados. O processo básico de análise de dados GBS pode ser dividido em quatro etapas-chave, que estão intimamente ligadas para formar uma cadeia completa desde a geração de dados até a extração de informação.
O controlo de qualidade e o pré-tratamento dos dados de sequenciação originais são o primeiro passo da análise de GBS, que afeta diretamente a precisão dos resultados subsequentes. Os dados originais (geralmente no formato FASTQ) contêm sequências de sequenciação (leitura) e os seus valores de massa, pelo que é necessário filtrar bases de baixa massa, remover sequências de ligadura e sequências repetidas através de ferramentas de controlo de qualidade. Especificamente, o controlo de qualidade inclui principalmente: filtragem com base no valor de qualidade Phred (valor Q) (geralmente as bases com Q≥20 são reservadas, e a taxa de erro correspondente é ≤1%), remoção de leituras com a razão de N (base desconhecida) a exceder 5%, poda de adaptadores de sequenciação e sequências de primers (o que pode ser realizado pelo Cutadapt e outras ferramentas), e remoção de sequências repetidas de PCR (especialmente quando a profundidade de sequenciação é alta, sequências repetidas levarão a variações).
O alinhamento de sequências e a localização do genoma de referência são os passos chave para ancorar leituras pré-tratadas ao genoma de referência, e a sua precisão determina a fiabilidade da deteção de mutações. Para espécies com genomas de referência (como o arroz e Arabidopsis thaliana), ferramentas de alinhamento de sequências curtas, como BWA e Bowtie2, podem ser utilizadas para alcançar um alinhamento eficiente, definindo parâmetros apropriados (como número de desajustes permitido ≤2). Os resultados da comparação são geralmente armazenados em formato SAM/BAM, incluindo a localização das leituras no genoma, informações sobre desajustes, entre outros. Para organismos não modelo sem genomas de referência (como muitas plantas selvagens), precisamos adotar uma estratégia de montagem de novo, agrupar leituras em contigs utilizando ferramentas como Stacks e UNEAK, e depois realizar a análise subsequente.
Esquema das quatro etapas do fluxo de trabalho SNP-GBS-CROP (Melo et al., 2016)
A genotipagem e a deteção de mutações são os principais objetivos da análise de GBS, que visa identificar variações genéticas como SNP e InDel a partir dos dados de comparação e determinar o genótipo de cada amostra. Esta fase depende de ferramentas de deteção de mutações (como GATK e TASSEL GBS), e os seus algoritmos principais incluem: cálculo da probabilidade de genótipo com base em modelos bayesianos, filtragem de mutações a nível populacional (como frequência alélica mínima ≥5% e taxa de deleção ≤20%), e deteção de rácio de heterozigoto anómalo (excluindo possível contaminação de amostras).
A padronização de dados e a conversão de formatos são a ponte entre o processamento a montante e a análise a jusante, e os dados devem ser convertidos em formatos adequados para diferentes ferramentas de acordo com os objetivos da pesquisa. Ferramentas de análise genética populacional (como o Structure e o admission) geralmente requerem a entrada no formato PLINK (.ped/.map), e o arquivo VCF precisa ser convertido pelas ferramentas PLINK; ferramentas de construção de mapas de ligação (como o JoinMap) necessitam de entrada no formato de ligação (.loc), que pode ser convertido pelo TASSEL ou pelo pacote R/qtl; ferramentas de estudo de associação genômica (GWAS) (como o GAPIT) suportam a leitura direta de arquivos VCF, mas variações de baixa qualidade (como locais com MAF<0.05) precisam ser pré-filtradas.
Gráfico de barras mostrando a extensão da sobreposição de marcadores entre os cinco pipelines avaliados (Melo et al., 2016)
Serviços que pode estar interessado em
Saiba Mais
A complexidade do GBS análise de dados gerou uma variedade de ferramentas especiais, que são projetadas para diferentes elos (comparação, deteção de mutações, análise posterior, etc.) e têm as suas próprias vantagens e cenários aplicáveis. Escolher a combinação de ferramentas certa é a chave para melhorar a eficiência da análise e a fiabilidade dos resultados. A seguir, são apresentadas várias ferramentas centrais e as suas características funcionais.
TASSELO
TASSEL GBS é um pipeline de análise GBS baseado em Qualcomm desenvolvido pela Universidade de Cornell nos Estados Unidos. É especialmente projetado para populações de plantas e suporta a análise automática de todo o processo, desde os dados brutos até a chamada de genótipos. As suas funções principais incluem: identificação de tags com base em informações de locais de restrição, agrupamento e comparação de tags, chamada de SNP e derivação de dados de genótipos. A vantagem única do TASSEL GBS reside na sua alta eficiência no processamento de amostras em grande escala (como dezenas de milhares de materiais vegetais), e o tempo de cálculo pode ser reduzido em mais de 50% através da otimização do cálculo em paralelo.
Representação esquemática do Pipeline de Descoberta TASSEL -GBS (Glaubitz et al., 2014)
Pilhas
Stacks é uma ferramenta para montagem de novo e genotipagem de organismos não-modelo, que pode realizar a deteção de mutações sem referência ao genoma, e é amplamente utilizada no estudo de plantas selvagens, peixes e outras espécies que carecem de informação genómica. O seu algoritmo central agrupa leituras semelhantes em um "stack", constrói uma etiqueta genómica simplificada e, em seguida, identifica SNPs através da análise de polimorfismo populacional. A vantagem do Stacks é que possui uma alta tolerância a dados de baixa cobertura (a profundidade de sequenciação mínima pode atingir 3×) e suporta o cálculo direto de parâmetros genéticos populacionais (como Fst e π).
GATK
GATK (Genome Analysis Toolkit) é uma ferramenta universal de deteção de mutações desenvolvida pelo Broad Institute, que é principalmente utilizada para a chamada de SNPs e filtragem de mutações com alta precisão na análise de dados de GBS. Os seus módulos principais (como HaplotypeCaller e VariantFiltration) são baseados num modelo de aprendizagem automática, que pode distinguir efetivamente variações reais de erros de sequenciação, especialmente para dados de GBS de organismos modelo como humanos e ratos. A vantagem do GATK reside na sua alta sensibilidade de deteção para mutações complexas (como SNPs multi-alélicos e InDels) e no seu suporte para a anotação funcional de mutações (como a integração de informações de anotação genética através do ANNOVAR).
PLINK
O PLINK é uma ferramenta clássica de genética populacional e análise de associação, que é principalmente utilizada para processamento posterior e análise estatística de dados de GBS. As suas funções incluem conversão de formato de dados (como VCF→PLINK), controlo de qualidade (como filtragem de loci com alta taxa de deleção), análise de estrutura populacional (como PCA e cálculo de LD) e análise de associação (como teste qui-quadrado e regressão logística). A vantagem do PLINK reside na sua rápida velocidade de operação, que pode lidar com dados de milhões de SNPs e dezenas de milhares de amostras, e o seu formato de saída é compatível com a maioria das ferramentas de processamento posterior (como Structure e GCTA).
O pipeline Stacks (Catchen et al., 2013)
Embora a análise de dados GBS tenha formado um processo padronizado, ainda enfrenta muitos desafios na aplicação prática, que provêm principalmente de características técnicas, diferenças entre espécies e escala de dados. Diante desses problemas, os pesquisadores desenvolveram uma série de soluções que oferecem um forte apoio para melhorar a qualidade da análise.
A profundidade de sequenciamento desigual e a falta de dados são os desafios mais comuns na análise de GBS. Como o GBS depende da distribuição dos locais de restrição, a profundidade de sequenciamento de diferentes regiões do genoma é significativamente diferente (geralmente entre 1× e 50×). Regiões de baixa profundidade são propensas a erros na chamada de genótipos, enquanto uma alta taxa de eliminação (> 30%) reduzirá a taxa de utilização dos dados. Por exemplo, nos dados de GBS de trigo, cerca de 20%-30% dos loci SNP foram eliminados devido à alta taxa de eliminação, o que afetou a eficácia estatística da análise subsequente. As soluções incluem principalmente:
Concordância antes e depois de aplicar o filtro SNP GBS (Cooke et al., 2016)
A análise de genomas complexos é particularmente difícil em espécies poliploides e altamente repetitivas (como o trigo, a batata e a cana-de-açúcar). Os cromossomos homólogos dos poliploides são propensos a causar ambiguidade no alinhamento de sequências, enquanto sequências altamente repetitivas aumentam a proporção de variação falsa positiva. Por exemplo, as sequências repetitivas no genoma do trigo hexaploide representam mais de 80%, e a taxa de erro da comparação de dados de GBS pode atingir 15%-20%. Para resolver este problema, as soluções incluem:
A verificação de consistência entre amostras e repetições técnicas é a chave para garantir a fiabilidade dos dados, mas muitas vezes é ignorada. A contaminação de amostras, o salto de código de barras ou o efeito de lote de sequenciação podem levar a uma diminuição na consistência genotípica de amostras repetidas. Por exemplo, a taxa de salto de etiquetas da plataforma de sequenciação Illumina é de cerca de 0,5%-2%, o que pode introduzir variação falsa positiva na análise de amostras em grande escala. As soluções incluem:
Deteção da estrutura populacional e crescimento com dados de GBS (Cooke et al., 2016)
Após o controlo de qualidade, comparação e deteção de mutações, os dados de GBS precisam de ser analisados a montante para explorar a significância biológica, como a análise da estrutura genética populacional, mapeamento de genes, construção de mapas de ligação, entre outros. Ao mesmo tempo, ferramentas de visualização podem transformar dados complexos em gráficos intuitivos para ajudar a interpretar e apresentar os resultados. A seguir, são apresentadas várias ferramentas de análise e visualização a montante e os seus cenários de aplicação.
A ferramenta de análise da estrutura genética populacional é utilizada para analisar a relação genética entre amostras e a estratificação populacional, que é a base da pesquisa evolutiva e da análise de associação. O Structure é uma ferramenta de inferência da estrutura populacional baseada em um modelo bayesiano, que revela a potencial estrutura genética da população ao atribuir amostras a k subgrupos hipotéticos. No estudo do GBS de plantas, o Structure é frequentemente utilizado para dividir os ecótipos de espécies cultivadas.
A ferramenta de estudo de associação genómica (GWAS) é utilizada para explorar a variação genética relacionada ao fenótipo em populações naturais, sendo amplamente utilizada no estudo de características complexas das culturas. O Gapit (ferramenta integrada de associação e previsão genómica) é uma ferramenta GWAS baseada na linguagem R, que suporta modelos lineares mistos (MLM) e pode controlar efetivamente a interferência da estrutura de grupo e da parentesco nos resultados da associação.
As ferramentas de visualização de dados podem transformar os resultados da análise GBS em gráficos intuitivos e ajudar a interpretar os resultados. O Circos é utilizado para desenhar um mapa cromossómico circular, que pode exibir informações multidimensionais, como densidade de SNP, localização de genes, intervalo de QTL, etc. Por exemplo, no genoma do trigo, o Circos pode mostrar claramente a correlação entre a distribuição de genes resistentes a doenças em diferentes cromossomas e marcadores GBS. O ggplot2 é um pacote de desenho na linguagem R, que suporta a criação de gráficos de dispersão de PCA, curvas de decaimento de LD, árvores filogenéticas populacionais, etc. Os seus parâmetros altamente personalizados podem satisfazer as necessidades de visualização diversificada.
As ferramentas de integração de dados multiômicos são utilizadas para correlacionar dados de genótipo GBS com dados fenotípicos, como transcriptoma e metabolómica, e revelar o mecanismo de regulação molecular das características. A WGCNA (análise de rede de co-expressão genética ponderada) pode associar marcadores GBS com dados de expressão gênica e identificar módulos de co-expressão relacionados a características-alvo.
Visão geral do pacote R/Bioconductor SWATH2stats (Blattmann et al., 2016)
O rápido desenvolvimento da tecnologia GBS promove a inovação na genética de plantas e na pesquisa de melhoramento, e a análise de dados, como o elo central entre a tecnologia e a descoberta científica, o progresso dos seus métodos e ferramentas determina diretamente a eficiência de utilização dos dados GBS. Este artigo resume o processo básico, as ferramentas centrais, os desafios e as aplicações da análise de dados GBS e fornece uma referência sistemática para os investigadores.
Referências: