Com o contínuo avanço das tecnologias de sequenciação, a Sequenciação de DNA Associada a Locais de Restrição (RAD-Seq) tornou-se cada vez mais instrumental na pesquisa genómica. A RAD-Seq envolve a sequenciação de fragmentos de DNA originados de locais digeridos por enzimas e apresenta uma abordagem economicamente viável para gerar uma abundância de marcadores de Polimorfismo de Nucleotídeo Único (SNP), independentemente da disponibilidade de um genoma de referência ou considerações sobre a ploidia cromossómica. Para ajudar os investigadores na seleção da técnica mais adequada às suas necessidades específicas, este artigo oferece uma análise comparativa de três metodologias de RAD-Seq amplamente adotadas.
RAD Original (DNA Associado a Locais de Restrição Original): Digerir com uma única enzima + Fragmentação mecânica para construção de bibliotecas e sequenciação.
GBS (Genotipagem por Sequenciação): Digerir com uma enzima comum + Amplificação seletiva baseada em PCR de fragmentos curtos de DNA para construção de bibliotecas e sequenciação.
ddRAD (DNA associado a locais de restrição de dupla digestão): Digerir com duas enzimas com ligação de adaptadores correspondendo a uma enzima + Seleção de tamanho em gel para construção de bibliotecas e sequenciação.
Tabela 1: Análise Comparativa de Três Técnicas de RAD-Seq
| RAD Original | GBS | ddRAD | |
| Opções para ajustar o número de loci | Mudar a enzima de restrição | Mudar a enzima de restrição | Mudar a enzima de restrição ou janela de seleção de tamanho |
| Número de loci por 1Mb de tamanho do genoma | 30-500 | 5-40 | 0.3-200 |
| Comprimento dos loci | ≤1kb se construir contigs; caso contrário ≤300bp | <300bp | ≤300bp |
| Custo por amostra com código de barras ou indexada | Baixo | Baixo | Baixo |
| Esforço por amostra com código de barras ou indexada | Médio | Baixo | Baixo |
| Uso de kit proprietário | Não | Não | Não |
| Identificação de duplicados de PCR | Com sequenciação de extremidades pareadas | Com códigos de barras degenerados | Com códigos de barras degenerados |
| Equipamento especializado necessário | Sonificador | Nenhum | Pippin Prep |
| Adequação para genomas grandes ou complexos | Boa | Moderada | Boa |
| Adequação para identificação de loci de novo (sem genoma de referência) | Boa | Moderada | Moderada |
| Disponível em empresas comerciais | Sim | Sim | Sim |
De acordo com os objetivos da pesquisa e as características das três técnicas de genoma simplificado, quatro pontos-chave devem ser considerados ao selecionar uma estratégia.
Ter um genoma de referência, mesmo que de qualidade subótima, é benéfico para reduzir erros na detecção de variantes provenientes de sequências homólogas ou repetitivas. Também facilita a detecção de InDels e a remoção de sequências contaminantes. A qualidade da montagem do genoma influencia diretamente os resultados. Além disso, um genoma de referência é essencial para varreduras de dependência, como análise de LD e análise de seleção. Adicionalmente, uma sequência de genoma de referência é necessária para a realização de GWAS (Estudos de Associação em Todo o Genoma). Para espécies sem genoma de referência, a sequenciação ddRAD é recomendada.
(1) Para digestão com dupla enzima, não é recomendada a utilização de leituras longas, pois os fragmentos de inserção são curtos e podem levar à contaminação por adaptadores. A sequenciação PE, em contraste, resulta frequentemente em sobreposição significativa.
(2) Quando os fragmentos de inserção são mais longos e o número de leituras é o mesmo, leituras longas podem capturar mais informações de variação.
(3) Com o mesmo volume de dados, a sequenciação de leituras curtas aumenta a profundidade média de sequenciação para cada etiqueta cortada por enzima, melhorando a precisão da detecção de SNP.
(4) Para espécies não referência, se as leituras 2 da sequenciação RAD convencional não forem montadas, resultará em um desperdício substancial de dados. Nesses casos, a sequenciação SE é recomendada.
Recomendação: No contexto de espécies dotadas de um genoma de referência acessível, é aconselhável considerar a utilização da sequenciação RAD convencional em conjunto com a sequenciação PE151. Por outro lado, para espécies desprovidas de um genoma de referência, a escolha judiciosa seria empregar a sequenciação SE. As metodologias GBS e ddRAD são otimamente acopladas com sequenciação PE101.
O número de loci identificados nas técnicas de genoma simplificado é influenciado pelo tamanho do genoma, pela distribuição e quantidade de locais de reconhecimento de enzimas no genoma. As contagens teóricas de fragmentos cortados por enzima podem ser estimadas através de simulação, dependendo das informações sobre os locais de reconhecimento de enzimas e sequências do genoma. Para o RAD convencional, o objetivo é capturar todos os fragmentos relacionados a locais de corte por enzima. No entanto, o GBS, que seleciona indiretamente fragmentos, geralmente produz um número maior de loci do que os fragmentos realmente relacionados a locais de corte por enzima, o que pode ser ajustado mudando o tipo de enzima. Para o ddRAD, o número de loci pode ser ajustado tanto pelo tipo de enzima quanto pela alteração da faixa de seleção de fragmentos.
Recomendação: Para análise de informações que requerem um alto número de marcadores, recomenda-se a sequenciação RAD convencional. Para genomas complexos e tamanhos de amostra grandes, sugere-se a sequenciação GBS.
A introdução de duplicados e erros de genotipagem O viés da amplificação por PCR pode levar à detecção de loci heterozigóticos como homozigóticos ou à introdução de erros de amplificação por PCR como genótipos verdadeiros. Também tem um impacto significativo na análise de informações que requer o cálculo do número de leituras de sequenciação, como o cálculo das frequências alélicas em amostras agrupadas. Para a sequenciação RAD convencional, os duplicados de PCR podem ser mitigados até certo ponto devido a variações nos comprimentos das sequências da biblioteca original e ao fato de que ambas as extremidades não são locais de reconhecimento de enzimas. No entanto, o GBS e o ddRAD são menos suscetíveis à remoção de duplicados.
Em resumo, ao formular uma estratégia de pesquisa, é imperativo que os investigadores considerem fatores-chave, incluindo a presença de um genoma de referência, abordagem de sequenciação, contagem de loci e as potenciais ramificações da amplificação por PCR. Cada uma dessas considerações possui uma importância primordial na seleção criteriosa da técnica de RAD-Seq mais adequada às especificidades de um determinado empreendimento de pesquisa.
A sequenciação de genomas simplificados tem ganho ampla utilidade no âmbito da pesquisa animal e vegetal, servindo como uma ferramenta valiosa para uma variedade de aplicações, incluindo detecção de SNP, análises da evolução populacional, avaliações da estrutura populacional, avaliações da diversidade populacional e explorações sobre a dinâmica histórica das populações.
Referências: