Fluxo de Trabalho da Tecnologia BSA-seq

Análise de segregantes em massa (BSA) é um método aplicado pela primeira vez na alface por R. W. MICHELMORE em 1991 para a localização rápida de genes que controlam características específicas. O método envolve a seleção de 12-14 plantas individuais com fenótipos extremos de uma população F2, juntando o seu DNA de forma igual para criar dois pools de DNA. Em seguida, são analisados marcadores polimórficos entre os progenitores e os dois pools. Se um marcador exibir polimorfismo consistente entre os progenitores e os pools, é provável que esteja ligado à característica. Análise genotípica desses marcadores polimórficos selecionados na população F2 permite a localização do gene-alvo, eliminando a necessidade de análise genotípica de cada marcador na população.

O princípio por trás deste método é que os marcadores ligados ao traço exibirão polimorfismo entre os dois grupos, enquanto os marcadores não ligados ou distantes do gene-alvo mostrarão heterozigose aleatória entre os grupos. A BSA é uma forma rápida de obter marcadores moleculares ligados ao traço, tipicamente utilizada para localizar genes de traços qualitativos ou loci de traços quantitativos (QTL) que controlam traços com um pequeno número (2-3) de efeitos principais.

Extração e Detecção de Amostras de ADN

Primeiro, o DNA é extraído utilizando um kit de extração de DNA, seguindo um procedimento padrão. O DNA dos dois pais com fenótipos extremos pode ser extraído diretamente e verificado quanto à qualidade. Em contraste, as amostras dos descendentes precisam passar por uma etapa adicional após a extração e verificação da qualidade do DNA, envolvendo a mistura equimolar para criar amostras agrupadas (cada grupo deve conter idealmente um mínimo de 20 amostras ou mais).

A deteção de amostras de DNA envolve três métodos principais:

  1. Eletroforese em gel de agarose para analisar a pureza e integridade do DNA.
  2. Nanodrop para avaliar a pureza do DNA (razão OD260/280).
  3. Qubit para quantificação precisa da concentração de DNA.

Requisitos de amostra de ADN: Para cada preparação de biblioteca, são necessários 2 μg de amostra, com pelo menos duas preparações fornecidas. A concentração da amostra deve ser >20 ng/μl, a razão OD260/280 deve estar entre 1,8 e 2,0, sem contaminação visível, e o ADN genómico deve estar intacto, sem degradação. Na eletroforese em gel, a banda principal do ADN deve ser maior que 23 kb.

Seleção de amostras: Para amostras de plantas, recomenda-se escolher plântulas amareladas de cultura escura ou plântulas tenras. Para amostras de animais, selecione tecidos com baixo teor de gordura, como músculo ou sangue, para amostragem.

DNA Sample Extraction And Detection

Construção de Biblioteca

As amostras de ADN que passaram no controlo de qualidade são fragmentadas em fragmentos de 350 bp utilizando um kit de reagentes de fragmentação para a construção da biblioteca. Os fragmentos de ADN passam por várias etapas, incluindo reparação das extremidades, adição de cauda poliA, ligação de adaptadores de sequenciação, purificação e amplificação por PCR, para completar todo o processo de preparação da biblioteca. Após a construção da biblioteca, é realizada uma quantificação inicial. Subsequentemente, é verificado o comprimento do fragmento de inserção da biblioteca e, uma vez que o comprimento corresponda ao tamanho esperado, a PCR quantitativa (qPCR) é utilizada para determinar com precisão a concentração efetiva da biblioteca, a fim de garantir a sua qualidade. Uma vez que a biblioteca passe nestes controlos de qualidade, avança para a próxima fase de sequenciação.

O fluxo de trabalho específico para a construção e sequenciação de bibliotecas é ilustrado no diagrama seguinte:

Aasim MajeedAasim Majeed et al. Front. Genet.08 de agosto de 2022

Processo de análise de bioinformação

Uma vez concluído o processo de controlo de qualidade, o fluxo de trabalho de construção da biblioteca e sequenciação prossegue da seguinte forma:

(1) Controlo de Qualidade dos Dados:

Após a obtenção dos dados de sequenciação bruta (Leituras Sequenciadas), as sequências de adaptadores e sequências como polyN e polyA são filtradas para obter dados limpos.

(2) Alinhamento ao Genoma de Referência:

As leituras válidas filtradas são alinhadas ao genoma de referência usando o BWA (Burrows-Wheeler Aligner). O software SAMtools é então utilizado para ordenar os resultados do alinhamento, seguido do uso do Picard para marcar leituras duplicadas. Marcar leituras duplicadas envolve rotular múltiplos fragmentos de DNA idênticos amplificados através de PCR. As leituras rotuladas não são utilizadas em análises subsequentes para evitar falsos positivos na deteção de variantes.

(3) Detecção de SNP e InDel:

Após marcar sequências duplicadas, é necessário realinhar InDels com base nos valores CIGAR (Relatório de Alinhamento Gap Idiossincrático Compacto) fornecidos nos resultados de alinhamento do BWA. O BWA tolera discrepâncias (discrepâncias e InDels) perto ou dentro de sequências contínuas de nucleótidos homopoliméricos (por exemplo, T's ou A's consecutivos). Isso pode levar a erros na chamada de variantes. Portanto, é essencial utilizar o módulo de Realinhamento de InDels do software GATK (Kit de Ferramentas de Análise Genómica) para minimizar erros de alinhamento perto de InDels (Inserção-Deleção).

É importante notar que a qualidade das chamadas de base (pontuações de qualidade) é crucial para a análise. No entanto, os instrumentos de sequenciação introduzem viéses sistemáticos que podem impactar significativamente a análise subsequente. Antes da recalibração das pontuações de qualidade das bases, por exemplo, as chamadas de base com pontuações de qualidade acima de Q25 são retidas. Na realidade, bases com uma pontuação de qualidade de Q25 têm uma taxa de erro de 1%. Assim, ter uma pontuação de qualidade de Q20 pode afetar a credibilidade da deteção de variantes subsequente. Erros nas chamadas de base nas extremidades das leituras são frequentemente mais altos do que no início. Além disso, a qualidade das bases AC é tipicamente inferior à das bases TG. Portanto, a Recalibração de Base do GATK é utilizada para corrigir as pontuações de qualidade das bases, garantindo uma qualidade de sequenciação mais consistente e fiável. Nota: Em casos de múltiplas corridas de sequenciação para a mesma amostra ou múltiplas amostras em diferentes pistas, a recalibração das bases deve ser realizada separadamente para cada pista para garantir precisão e eficácia.

Após estes passos preliminares, a próxima fase envolve a deteção de locais de mutação (chamada de variantes). Distinguir variantes genéticas verdadeiras de potenciais erros de sequenciação (ruído aleatório da máquina) é um desafio crítico neste processo. O GATK oferece dois métodos: o UnifiedGenotyper, independente de modelo, que não considera a influência de bases adjacentes, e o HaplotypeCaller, baseado em modelo local de novo. O HaplotypeCaller constrói um gráfico de DeBruijn e utiliza o modelo PairHMM para previsão de haplótipos únicos e avaliação da fiabilidade dos locais de mutação, resultando numa deteção de variantes mais precisa.

Atualmente, a ferramenta UnifiedGenotyper, em combinação com o realinhamento de InDels anterior e a recalibração de bases, permite uma deteção precisa de SNPs.

Deteção de Variação Estrutural (SV):

As variações estruturais no genoma são analisadas utilizando o algoritmo Lumpy.

Deteção de Variação no Número de Cópias (CNV):

A análise das Variações no Número de Cópias no genoma é realizada utilizando o algoritmo Control-Freec, que pode prever os números de cópias para cada região em mudança.

(6) Anotação:

A anotação de informações biológicas para locais de mutação em regiões codificantes é vital, uma vez que estas regiões são críticas para a ocorrência de doenças e alterações de características. O software SnpEff e Annovar é utilizado para a anotação estrutural de locais de mutação.

Localização da Região Candidata:

Com base nos locais de SNP detetados, o índice de SNP das amostras agrupadas é calculado, juntamente com a diferença de frequência entre os dois grupos de traços extremos. As regiões com diferenças significativas são selecionadas para a localização da região candidata.

(8) Anotação Funcional de Genes Dentro de Regiões Candidatas:

Para os genes candidatos dentro da região candidata, é realizada a anotação funcional GO (Gene Ontology) e KEGG (Kyoto Encyclopedia of Genes and Genomes).

(9) Distribuição e Estatísticas de Tipo de SNP e InDel Dentro das Regiões Candidatas:

A análise é realizada para entender a relação entre variações SNP e InDel dentro de regiões candidatas e genes anotados. Isto inclui a análise de regiões onde ocorrem substituições não sinónimas ou variantes que causam códon de paragem prematuro, bem como regiões onde ocorrem variações em regiões regulatórias (regiões promotoras).

Distribution and Type Statistics of SNP and InDel Within Candidate Regions

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.
Serviços Relacionados
Fale com os Nossos Cientistas
Sobre o que gostaria de discutir?
Com quem estaremos a falar?

* é um item obrigatório.

Contacte a CD Genomics
Termos e Condições | Política de Privacidade | Feedback   Direitos de Autor © CD Genomics. Todos os direitos reservados.
Topo