Como Detetar Variações Estruturais (SVs) Através de Sequenciação
O que é Variação Estrutural?
Variações Estruturais (SVs) referem-se a mutações dentro de segmentos de DNA com mais de 50 pares de bases. Tipos notáveis de SV incluem deleção, duplicação, inserção, inversão e translocação.
Quanto ao seu impacto na expressão gênica, as SVs podem exercer efeitos diversos:
- Variantes como duplicações de genes, inserções e deleções podem modificar a dosagem gênica.
- Variações estruturais dentro de regiões codificantes podem influenciar a transcrição e tradução de genes.
- SVs em regiões não codificantes podem perturbar elementos regulatórios de genes através de efeitos posicionais.
- A deleção de elementos de potenciadores ou repressores pode alterar os níveis de transcrição gênica.
Principais tipos de SV e seus padrões característicos de alinhamento de leitura. (van Belzen et al., 2021)
No contexto de doenças, as SVs podem induzir a expressão anormal de características, levando a várias condições hereditárias.
Embora a prevalência de variantes estruturais no genoma humano represente cerca de 0,5% em comparação com variantes de nucleotídeo único (SNVs), elas afetam dez vezes mais bases do que as SNVs no total. As variantes estruturais têm maior probabilidade de estar associadas a sinais de associação em todo o genoma e têm uma maior propensão a impactar a expressão gênica em comparação com as SNVs.
As SVs são um dos principais contribuintes para distúrbios genéticos em humanos. No entanto, os testes clínicos atuais dependem predominantemente de métodos citogenéticos convencionais. Para detectar anomalias cromossômicas de forma abrangente, é frequentemente necessária uma combinação de técnicas citogenéticas, como hibridização in situ por fluorescência (FISH), cariotipagem e microarranjos de variação no número de cópias (CNV).
Técnicas de sequenciamento de alto rendimento produzem sequências curtas de nucleotídeos, normalmente abrangendo dezenas a centenas de bases, denominadas fragmentos de sequenciamento ou "leituras". A maioria dos métodos de detecção de SV baseados em tecnologias de sequenciamento identifica esses fragmentos alinhando-os a um genoma de referência. No entanto, a detecção precisa de SV apresenta desafios substanciais, dado que as SVs tendem a residir em regiões de DNA repetitivas ou duplicadas e abrangem uma variedade de tipos, incluindo inserções, deleções, inversões, translocações e duplicações, complicando ainda mais seu processo de detecção.
Estratégias para Detectar Variantes Estruturais em Dados de Sequenciamento de Próxima Geração (NGS)
Método de Par de Leituras (RP)
O método de par de leituras, também conhecido como sequenciamento de extremidade pareada (PE), envolve o sequenciamento de ambas as extremidades do mesmo fragmento de DNA, referidas como read1 e read2, em direções opostas. Essas leituras são tipicamente curtas, frequentemente com menos de algumas centenas de pares de bases. O espaço entre elas é chamado de fragmento de inserção, com seu tamanho referido como tamanho do inserto. Medir o verdadeiro comprimento do inserto entre read1 e read2 é indireto e envolve alinhá-los a um genoma de referência.
O sequenciamento PE fornece informações valiosas sobre a distância e a orientação das leituras pareadas nas extremidades de um fragmento de DNA. Ao comparar essas leituras com um genoma de referência, podemos analisar suas informações posicionais e de orientação para identificar variantes estruturais (SVs) que se desviam do genoma de referência.
Limitações:
- O método de par de leituras enfrenta desafios ao lidar com regiões genômicas repetitivas.
- É menos eficaz na detecção de SVs em segmentos grandes devido a limitações no comprimento do fragmento de DNA.
- A confiabilidade e precisão da detecção diminuem para pequenas deleções (tipicamente <200bp).
- Em casos onde o fragmento de inserção inteiro é uma variação de sequência, pode não ser obtida informação genômica.
Método de Leitura Dividida
O método de profundidade de leitura detecta duplicações e deleções assumindo uma distribuição aleatória da profundidade de mapeamento, como uma distribuição de Poisson. Identifica regiões duplicadas com alta profundidade de leitura e regiões deletadas com baixa profundidade de leitura quando comparadas a um genoma de referência.
Métodos de Profundidade de Leitura
Os métodos de leitura dividida são hábeis na detecção de deleções e pequenas inserções, especialmente com leituras longas de sequências Sanger. Esses métodos visam localizar os pontos de quebra de variantes estruturais e também podem detectar inserções móveis se as leituras forem suficientemente longas (>400bp). No entanto, a prevalência de leituras curtas em sequenciamento baseado em NGS complica os alinhamentos e limita a aplicabilidade do método de leitura dividida. O algoritmo Pindel, por exemplo, aproveita as leituras de extremidade pareada para reduzir a complexidade dos alinhamentos de sequências curtas.
Abordagem de Montagem de Sequência De Novo (AS)
Em teoria, a montagem de de novo pode detectar com precisão todos os tipos de variações estruturais. No entanto, as tecnologias NGS produzem principalmente sequências de leituras curtas (tipicamente 30 bp), representando um desafio significativo para a montagem de genoma inteiro de novo. Métodos de montagem tradicionais requerem a identificação de regiões sobrepostas, aumentando a complexidade da montagem. Embora a montagem de leituras pareadas seja teoricamente mais fácil, na prática, é mais complexa em comparação com a montagem de leituras não pareadas. Vários algoritmos visam combinar a montagem de de novo com técnicas de montagem localizadas para enfrentar esses desafios.
Fluxo de trabalho de sequenciamento de leituras curtas para identificar variantes estruturais. (Ho et al., 2020)
A Tecnologia de Sequenciamento de Leituras Longas Está Revolucionando a Detecção de Variantes Estruturais
A tecnologia de sequenciamento de leituras longas (principalmente da PacBio e da Oxford Nanopore) anuncia uma mudança de paradigma na detecção de variantes estruturais, trazendo maior eficiência e fidelidade dos dados. No âmbito da identificação de variantes estruturais genômicas, tanto o sequenciamento de leituras longas quanto a montagem de de novo se destacam como ferramentas formidáveis. Esses métodos se destacam em fornecer um inventário abrangente de variantes estruturais de todos os tipos. No entanto, a capacidade intrínseca dos equipamentos de sequenciamento de leituras longas de gerar sequências de DNA extensas confere uma melhoria significativa na precisão da detecção, permitindo a discernimento até mesmo das variantes estruturais mais substanciais, incluindo aquelas regiões elusivas que escapam à detecção por outros meios tecnológicos.
Comparação entre montagem de de novo, abordagens de mapeamento de leituras curtas e longas para identificar variantes estruturais. (Mahmoud et al., 2019)
Avanços Profundos na Detecção de Variantes Estruturais Diversas
A tecnologia de sequenciamento de leituras longas trouxe transformações profundas na detecção de variantes estruturais devido à sua capacidade de gerar leituras de sequência longas. Ela não apenas se destaca em descobrir variantes estruturais comuns, mas também captura habilmente variações estruturais intrincadas, repetições em tandem e inserções de elementos transponíveis. Essa amplitude de capacidade a posiciona muito à frente das metodologias convencionais para identificação de variantes estruturais.
Em contraste com técnicas convencionais, a tecnologia de sequenciamento de leituras longas se destaca em identificar variantes estruturais intrincadas. Essas complexidades frequentemente abrangem múltiplos pontos de quebra e sequências variantes que podem confundir abordagens tradicionais. Os comprimentos de leitura estendidos intrínsecos à tecnologia de sequenciamento de leituras longas permitem uma identificação e localização mais precisas desses pontos de quebra, elevando assim a precisão da detecção.
A tecnologia também demonstra uma notável capacidade de discernir repetições em tandem—uma forma de variação estrutural que influencia profundamente a função e expressão gênica. Onde métodos tradicionais podem falhar na detecção de repetições em tandem, a tecnologia de sequenciamento de leituras longas brilha, distinguindo facilmente entre várias sequências de repetição e enriquecendo o conjunto de dados de pesquisa com informações abrangentes.
Quando se trata de detectar inserções de elementos transponíveis, a tecnologia de sequenciamento de leituras longas exibe uma destreza excepcional. Ela oferece uma captura precisa desses eventos de inserção, proporcionando aos pesquisadores uma compreensão mais profunda do impacto genômico de tais variantes estruturais.
Além de sua diversidade na detecção de variantes estruturais, a tecnologia de sequenciamento de leituras longas também capacita os pesquisadores com insights mais granulares. Ela fornece informações críticas, incluindo as posições exatas dos pontos de quebra de variantes e sequências completas de variantes, que são indispensáveis para pesquisas adicionais e para a interpretação da funcionalidade e repercussões das variantes.
Localizando Precisamente as Posições dos Pontos de Quebra
A tecnologia de sequenciamento de leituras longas se destaca na localização precisa das posições dos pontos de quebra de variantes estruturais—um aspecto fundamental para pesquisas e validações subsequentes. Os pesquisadores podem obter uma compreensão mais sutil das localizações exatas onde as variantes se manifestam, ajudando a desvendar associações entre variantes e doenças ou outros processos biológicos.
Outra vantagem distintiva da tecnologia de sequenciamento de leituras longas reside em sua capacidade de fornecer informações exaustivas sobre sequências de variantes. Em contraste com metodologias tradicionais, que podem fornecer apenas uma visão limitada sobre sequências de variantes, a tecnologia de sequenciamento de leituras longas captura a totalidade das sequências de variantes. Esse conjunto de dados abrangente capacita os pesquisadores a realizar análises mais exaustivas das características das variantes e seus potenciais impactos.
Referências:
- van Belzen, Ianthe AEM, et al. "Detecção de variantes estruturais em genomas de câncer: desafios computacionais e perspectivas para a oncologia de precisão." NPJ Precision Oncology 5.1 (2021): 15.
- Mahmoud, Medhat, et al. "Chamada de variantes estruturais: o longo e o curto disso." Genome biology 20.1 (2019): 1-14.
- Ho, Steve S., Alexander E. Urban, e Ryan E. Mills. "Variação estrutural na era do sequenciamento." Nature Reviews Genetics 21.3 (2020): 171-189.