What is structural variant and haplotype analysis?

Structural variant and haplotype analysis identifies large genome changes and organizes variants by allele or linked genomic background.

When is SNP-only variant analysis not enough?

SNP-only analysis may be insufficient when the research signal involves large insertions, deletions, inversions, duplications, CNVs, translocations, repeats, or linked allele-specific patterns.

Why are long reads useful for structural variant detection?

Long reads can span larger genomic regions, repetitive sequences, and variant breakpoints, which makes them useful for detecting and resolving structural variants.

Solução de Análise de Variantes Estruturais e Haplótipos

Índice

Genome variation analysis output overview

Explore como a evidência de leituras longas, a chamada de variantes estruturais, a faseamento de haplótipos e a bioinformática personalizada podem apoiar a interpretação complexa do genoma.

Quando os SNPs Não São Suficientes: Por Que os Variações Estruturais e os Haplotipos São Importantes

Os SNPs e pequenas indels são úteis, mas são apenas uma camada da variação genómica. Muitas questões de investigação dependem de alterações genómicas maiores, como mudanças no número de cópias, grandes inserções, inversões, translocações, variantes associadas a repetições ou combinações de variantes específicas de alelos.

Um projeto de análise de variantes estruturais e haplótipos vai além de alterações base isoladas. Faz uma pergunta mais prática: qual arquitetura genómica está ligada à diferença biológica que está a estudar?

As variantes estruturais podem afetar a dosagem de genes, sequências codificadoras, regiões regulatórias, organização do genoma e intervalos candidatos. A análise de haplótipos acrescenta outra camada ao mostrar quais variantes ocorrem juntas no mesmo alelo ou fundo genómico. Esse contexto pode ser importante quando um sinal de pesquisa depende de blocos herdados, alelos parentais, estrutura populacional, diferenças entre linhagens ou variação a nível de cultivares.

A sequenciação de longas leituras é frequentemente valiosa nesta área porque as longas leituras podem abranger regiões repetitivas, rearranjos complexos e variantes ligadas que as leituras curtas podem não resolver bem. Estudos recentes demonstraram que a sequenciação de longas leituras pode melhorar a descoberta de variantes estruturais e a análise consciente de haplótipos em regiões genómicas difíceis.

Para muitas equipas, a questão principal não é simplesmente se os SVs estão presentes. A questão mais útil é se os SVs e haplótipos podem ser ligados a genes candidatos, regiões candidatas, diferenças entre grupos ou interpretações subsequentes. É aí que uma solução planeada é importante.

O que esta solução o ajuda a resolver

A nossa solução de Análise de Variantes Estruturais e Haplótipos é projetada para projetos onde a análise de variantes padrão deixa questões importantes em aberto.

Interpretação de traços complexos e regiões candidatas

Se o seu Estudo de associação genómica (GWAS), QTL-seq, Análise de Segregação em Massa (BSA)ou a análise populacional aponta para uma região candidata, os resultados a nível de SNP podem não explicar o sinal completo.

Rever regiões candidatas para variação estrutural
Conectar SVs com genes e anotações próximas
Organizar evidências faseadas em torno da questão de pesquisa.

Comparação de população, estirpe, cultivar ou germoplasma

Em Genética Populacional, pesquisa de reprodução e estudos a nível de linhagens, a mesma região genética pode apresentar diferentes formas estruturais entre grupos.

Compare padrões SV entre grupos.
Resumir estruturas de haplótipos por população ou linhagem.
Apoio a estudos de germoplasma e diversidade

Análise de organismos não modelo e genomas complexos

Muitas plantas, animais, microrganismos e organismos ambientais têm regiões repetitivas, qualidade de referência variável, alta heterozigosidade, poliploidia ou recursos genómicos incompletos.

Rever o tamanho do genoma e o estado de referência
Avalie a qualidade da amostra antes da seleção da plataforma.
Adaptar a análise à complexidade do genoma.

Integração com análise a montante

Os resultados de SV e haplótipos são mais úteis quando se conectam ao resto do estudo.

As Nossas Capacidades de Serviço para Projetos de SV e Haplótipo

Não tratamos a análise de SV e haplótipos como um único pipeline padrão. Um plano de projeto útil depende da sua amostra, espécie, estrutura genómica, dados existentes e questão biológica.

Design de estratégia de sequenciação

Analisamos se o seu projeto está mais adequado para sequenciação de leituras curtas, sequenciação de leituras longas ou uma estratégia híbrida. Projetos focados em SVs grandes, repetições, haplótipos, locos complexos ou genomas não-modelo frequentemente beneficiam de evidências de leituras longas.

Quando a sequenciação de leitura longa é apropriada, podemos ajudá-lo a avaliar opções como Sequenciação SMRT da PacBio e Sequenciação por nanoporo.

Deteção e anotação de variantes estruturais

Eliminações
Inserções
Inversões
Duplicaçõe
Translocações
CNVs
Rearranjos complexos, quando apoiados pelos dados

Para projetos focados em CNV, Serviços de Sequenciamento CNV pode ser considerado como um módulo relacionado.

Faseamento de haplótipos e interpretação consciente de haplótipos

A faseação de haplótipos ajuda a organizar variantes por alelo ou fundo genómico. Isso pode ajudar a sua equipa a entender se as variantes estão ligadas, como diferem entre grupos e se uma região candidata contém padrões de variantes faseadas que são relevantes para a interpretação.

Bioinformática personalizada

Os projetos de SV e haplótipos frequentemente necessitam de mais do que uma exportação de ficheiro padrão. A CD Genomics oferece Bioinformática, Análise de Dados Genómicose Serviço de Análise de Dados de Sequenciação de Longa Leitura para projetos que requerem design de análise personalizada, lógica de filtragem, comparação de coortes ou visualização pronta para relatórios.

Podemos preparar resultados que ajudem a sua equipa a rever e comunicar os resultados, incluindo tabelas de resumo de SV, ficheiros de variantes em fases, tabelas de anotação, faixas de navegador do genoma, figuras de resumo e relatórios de projeto.

Estratégia de Tecnologia: Leitura Longa, Leitura Curta ou Híbrida?

A melhor estratégia depende do que precisa de resolver. Nenhuma plataforma ou método de análise é o melhor para todos os projetos de SV e haplótipos. Um benchmark de 2024 da Nature Communications que compara métodos de deteção de SV baseados em alinhamento e em montagem encontrou trocas claras. Os métodos baseados em montagem tiveram um bom desempenho para SV grandes, especialmente inserções, enquanto os métodos baseados em alinhamento mostraram vantagens para a precisão de genotipagem a coberturas mais baixas e para algumas classes complexas de SV. O estudo também enfatizou que não existe uma ferramenta universalmente superior em todos os cenários.

Estratégia	Melhor ajuste	Valor de deteção SV	Valor de haplótipo	Sensibilidade da amostra	Necessidades de bioinformática	Notas práticas
WGS de leitura curta	Descoberta de SNP/Indel, sequenciamento amplo, dados de coorte existentes	Limitado para SVs grandes ou complexos; útil para variantes pequenas e evidências de suporte.	Fase limitada, a menos que suportada por dados adicionais.	Geralmente mais tolerante a DNA fragmentado do que fluxos de trabalho de leitura longa.	Chamadas de variantes padrão, filtragem, anotação	Útil quando são necessários dados de variantes pequenas a nível de coorte.
Sequenciação de longas leituras HiFi da PacBio	Descoberta precisa de variantes de leitura longa, regiões complexas, análise consciente do haplótipo.	Forte para inserções, deleções, variantes associadas a repetições e regiões complexas.	Forte quando a leitura do comprimento e a precisão suportam a fase.	Requer DNA genómico de alta qualidade	Alinhamento de leituras longas, chamada de SV, faseamento, anotação	Boa opção quando tanto a precisão da sequência quanto o contexto de leitura longa são importantes.
Sequenciação de leitura longa da Oxford Nanopore	Leituras longas, potencial de leituras ultra-longas, regiões estruturais complexas	Útil para grandes SVs, leituras que abrangem repetições e rearranjos.	Pode suportar a fase quando a cobertura, a qualidade de leitura e o design do pipeline forem adequados.	Requer uma revisão cuidadosa da integridade do DNA, especialmente para objetivos ultra-longos.	Alinhamento ciente de ONT, chamada de SV, estratégia de polimento ou filtragem	Boa escolha quando o comprimento de leitura e o poder de abrangência são prioridades.
Leitura híbrida de curta e longa duração	Dados existentes de leituras curtas mais novas evidências de leituras longas	Combina um contexto de variantes amplo com evidências de SV de leitura longa.	Pode aumentar a confiança quando várias camadas de evidência concordam.	Depende de ambos os tipos de dados.	Integração, validação cruzada, relatórios consolidados	Útil quando o projeto já possui dados de WGS de leitura curta ou de re-sequenciamento.
Montagem resolvida por haplótipos	Genomas complexos, alta heterozigosidade, pan-genoma ou estudos específicos de alelos	Forte para a descoberta estrutural quando a qualidade da montagem é alta.	Forte para a estrutura genómica específica de alelos	Exige entrada de alta qualidade e um planeamento mais profundo.	Montagem, polimento, faseamento, comparação, anotação	Melhor quando é necessária uma base de genoma de nível de referência ou resolvida por alelos.

Fluxo de Trabalho de Ponta a Ponta com Pontos de Verificação de QC

Desde a receção do projeto até resultados de SV e haplótipos prontos para relatório.

End-to-end structural variant and haplotype analysis workflow with QC checkpoints

Começamos por rever a sua espécie, tipo de amostra, número de amostras, estado do genoma de referência, objetivo da pesquisa, tipos de variantes alvo e necessidades de análise posterior. Nesta fase, esclarecemos se o projeto se concentra na descoberta de SVs em genomas completos, numa região candidata, comparação populacional, comparação de material de reprodução, variação a nível de estirpe ou integração com resultados existentes.

Após a submissão da amostra, a qualidade do ADN genómico é verificada antes da preparação da biblioteca. Para fluxos de trabalho de leitura longa, a integridade do ADN é especialmente importante, pois moléculas longas melhoram a capacidade de abranger repetições, pontos de quebra e blocos de haplótipos. Se a amostra não corresponder ao fluxo de trabalho planeado, revemos possíveis ajustes antes de avançar.

Dependendo da estratégia confirmada, as amostras são direcionadas para sequenciação de leitura curta, leitura longa ou sequenciação híbrida. Para projetos de leitura longa, o objetivo é gerar leituras que possam suportar a deteção de variantes estruturais (SV), resolução de pontos de quebra e faseamento, sempre que os dados o permitam. As leituras são então alinhadas ao genoma de referência ou utilizadas em um fluxo de trabalho consciente da montagem quando apropriado.

As variantes estruturais são chamadas, filtradas, classificadas e anotadas. O faseamento de haplótipos é realizado quando os dados e o desenho do estudo o suportam. Os resultados podem então ser ligados a genes, regiões regulatórias, intervalos candidatos, grupos populacionais ou regiões associadas a traços. Você recebe arquivos de saída e um relatório de projeto que resumem a lógica da análise, os principais tipos de resultados, a estrutura dos arquivos e as saídas prontas para visualização.

Requisitos de Amostra e Informações de Entrada do Projeto

A qualidade da amostra afeta diretamente a análise de SV e haplótipos de long-read. O DNA de alto peso molecular é especialmente importante quando o projeto depende de evidências de long-read em repetições, pontos de quebra de SV ou regiões faseadas.

Os requisitos finais da amostra dependem da espécie, tamanho do genoma, tipo de amostra, plataforma e objetivo do projeto. Antes da confirmação do projeto, a nossa equipa analisa as informações abaixo e recomenda o fluxo de trabalho mais adequado.

Tipo de amostra ou entrada	O que revisamos	Foco na qualidade	Pontos de controlo típicos de QC	Notas
DNA genómico de alto peso molecular para análise de leituras longas	Integridade do DNA, concentração, pureza, método de extração, histórico da amostra	Fragmentos de ADN longos, baixa degradação, baixa contaminação	Qubit, NanoDrop, gel, PFGE ou revisão do tamanho de fragmentos onde aplicável	Melhor para projetos que dependem de evidências de long-read em repetições, pontos de quebra de SV ou regiões faseadas.
DNA genómico padrão para suporte a WGS de leituras curtas	Quantidade de DNA, pureza, degradação, consistência da amostra	Qualidade de entrada estável para a construção de bibliotecas	Qubit, NanoDrop, verificação de gel, QC da biblioteca	Útil quando dados de leituras curtas suportam análise a nível de coorte ou híbrida.
Ficheiros FASTQ, BAM, CRAM ou VCF existentes	Formato de ficheiro, fonte da plataforma, metadados de amostra, versão do genoma de referência	Integridade do ficheiro, completude de metadados, compatibilidade com a análise planeada.	Verificação de integridade do ficheiro, verificação de formato, revisão de metadados	Pode apoiar a reanálise, integração híbrida ou interpretação a jusante.
Material de tecido, célula, planta, microbiano ou ambiental	Amostra de origem, condição de preservação, qualidade de ADN esperada, viabilidade da extração	Adequação para extração de DNA e sequenciação subsequente	Inspeção de amostras, revisão da viabilidade de extração, controlo de qualidade de entrada após extração.	O suporte à extração pode ser considerado quando a submissão direta de ADN não estiver disponível.
Conjuntos de dados existentes de GWAS, QTL, BSA, pan-genoma ou população	Desenho do estudo, rótulos dos grupos, regiões candidatas, versão de referência, formato dos resultados	Compatibilidade com SV e interpretação de haplótipos	Revisão de metadados, revisão do sistema de coordenadas, revisão do ficheiro de resultados.	Ajuda a conectar os resultados de SV e haplótipos com questões biológicas subsequentes.

Análise e Resultados de Bioinformática

O principal valor desta solução não é apenas a geração de dados. O valor vem de transformar evidências de SV e haplótipos em resultados organizados, reutilizáveis e interpretáveis.

Focamo-nos nos resultados que a sua equipa pode realmente utilizar: ficheiros para reanálise, tabelas para revisão, trilhos para visualização e relatórios que explicam o que foi feito.

Entregas mínimas

Resumo da QC de dados brutos
Distribuição do comprimento e qualidade da leitura
Resumo de alinhamento
Resumo da cobertura
Conjunto de chamadas de variantes estruturais
Tabela de anotação SV
Resultados de fase de haplótipos

Complementos opcionais

análise focada em CNV
Comparação de SV a nível populacional
Comparação da frequência de haplótipos
Integração de GWAS, QTL-seq ou BSA
Comparação do pan-genoma
Anotação da região candidata

Tipos de ficheiros de saída

Arquivos FASTQ, BAM ou CRAM, quando aplicável.
Ficheiros VCF ou ficheiros VCF faseados
Ficheiros de anotação no estilo BED ou GFF
Tabelas resumo TSV ou CSV
Faixas do navegador do genoma
Relatório de projeto em formato PDF ou estilo HTML

Como Escolher a Estratégia Certa de Análise de SV e Haplótipo

Uma boa estratégia começa com a questão biológica. Ajudamo-lo a decidir que camada de evidência e profundidade de análise são necessárias antes de avançar para a execução do projeto.

Escolha o longo-primeiro quando a complexidade estrutural for central.

Uma estratégia de leitura longa-primeiro é frequentemente apropriada quando o seu projeto se concentra em grandes inserções, deleções, inversões, translocações, repetições, loci complexos ou blocos de haplótipos.

Escolha a análise híbrida quando os dados de leitura curta existentes puderem agregar valor.

Se já tiver dados de WGS de leitura curta, re-sequenciamento, GWAS, QTL ou BSA, uma estratégia híbrida pode ajudar a reutilizar as evidências existentes enquanto adiciona suporte de leitura longa para questões de SV e faseamento.

Adicione análise populacional ou de traços quando a interpretação depender de grupos.

Se a sua pesquisa compara populações, estirpes, cultivares, famílias ou grupos fenotípicos, a análise não deve parar na chamada de SV de amostra única.

Adicione bioinformática personalizada quando as saídas padrão não forem suficientes.

Um ficheiro VCF padrão pode não responder à sua questão de investigação. A bioinformática personalizada pode ajudar a conectar SVs e haplótipos a genes, intervalos, anotações funcionais, diferenças entre grupos ou visualizações prontas para relatório.

Plano de Análise de Solicitações

Referências

Conformidade / Isenção de responsabilidade

A CD Genomics oferece este serviço apenas para Uso em Pesquisa (RUO). Este serviço não se destina a diagnóstico clínico, interpretação médica direta ou testes diretos ao consumidor.

Resultados da Demonstração

Os resultados da demonstração ajudam a sua equipa a entender como pode ser a análise final antes de iniciar o projeto. Estes exemplos mostram tipos de resultados, não conclusões biológicas fixas.

Resumo da paisagem SV

Esta saída resume as deleções, inserções, inversões, duplicações, translocações e CNVs entre amostras ou regiões.

Bloco de haplótipos e vista de variantes faseadas

Esta saída mostra variantes em fase numa região, ajudando a ver quais variantes ocorrem juntas no mesmo haplótipo.

Candidate-region interpretation view integrating SVs and gene annotation

Interpretação integrada da região do candidato

Esta saída combina chamadas SV, variantes em fase, anotação de genes e sinais de comparação de grupos numa única região.

Perguntas Frequentes

1. O que é análise de variantes estruturais e haplótipos?

A análise de variantes estruturais e haplótipos identifica grandes alterações genómicas e organiza variantes por alelo ou fundo genómico ligado. Pode incluir a chamada de variantes estruturais, análise de CNV, revisão de pontos de ruptura, faseamento, anotação, visualização e interpretação subsequente.

2. Quando a análise de variantes apenas de SNP não é suficiente?

A análise apenas de SNPs pode ser insuficiente quando o sinal de pesquisa envolve grandes inserções, deleções, inversões, duplicações, CNVs, translocações, repetições ou padrões específicos de alelos ligados. Se uma região candidata parecer importante, mas os SNPs não explicarem o padrão, a análise de SV e haplótipos pode ser útil.

3. Por que é que leituras longas são úteis para a deteção de variantes estruturais?

Leituras longas podem abranger regiões genómicas maiores, sequências repetitivas e pontos de quebra de variantes. Isso torna-as úteis para detectar e resolver SVs que podem ser difíceis de caracterizar apenas com leituras curtas.

4. Como é que o PacBio e o Nanopore diferem em projetos de SV e haplótipos?

Os fluxos de trabalho ao estilo PacBio são frequentemente valorizados por leituras longas precisas, enquanto os fluxos de trabalho ao estilo Nanopore podem fornecer leituras muito longas e uma forte capacidade de cobertura. A melhor escolha depende da qualidade da amostra, da complexidade do genoma, dos tipos de variantes-alvo, das necessidades de comprimento de leitura e dos objetivos de análise subsequente.

5. Esta solução pode funcionar para organismos não-modelo?

Sim, muitos projetos com organismos não modelo são adequados, mas o design do fluxo de trabalho é importante. Analisamos a qualidade do genoma de referência, o tamanho do genoma, o conteúdo de repetições, a heterozigosidade, a ploidia e a qualidade da amostra antes de recomendar uma estratégia.

6. Que informações de amostra são necessárias antes de recomendar um fluxo de trabalho?

Normalmente, precisamos de espécies, tipo de amostra, número de amostras, quantidade de ADN disponível, qualidade do ADN, estado do genoma de referência, dados de sequenciação existentes, tipos de variantes alvo e a principal questão de investigação.

7. Quais são os entregáveis que posso esperar?

Os entregáveis podem incluir resumos de QC, ficheiros de alinhamento, conjuntos de chamadas de SV, saídas de variantes faseadas, tabelas de anotação, ficheiros prontos para visualização, faixas para navegadores do genoma e um relatório do projeto. Os outputs opcionais podem incluir comparação de coortes ou interpretação de regiões candidatas.

8. Podem os resultados de SV e haplótipos ser integrados com GWAS, QTL-seq, BSA ou análise de pan-genoma?

Sim. Os resultados de SV e haplótipos podem ser ligados a intervalos mapeados, regiões candidatas, grupos populacionais, padrões de presença/ausência do pan-genoma ou sinais associados a traços quando o desenho do estudo o suporta.

9. Você fornece saídas prontas para visualização?

Sim. Podemos preparar figuras resumidas, faixas de navegador do genoma, gráficos a nível de região, resumos de classes de SV, visualizações de blocos de haplótipos e painéis de regiões candidatas quando estas saídas estão incluídas no plano de análise.

10. Como devo decidir entre uma solução apenas de sequenciação e uma solução de análise completa?

Apenas o sequenciamento pode ser suficiente se a sua equipa já tiver um pipeline validado e um plano de interpretação claro. Uma solução de análise completa é mais útil quando precisa de ajuda com a seleção de plataformas, chamada de SV, faseamento, anotação, visualização e interpretação biológica subsequente.

Caso de Literatura: Descoberta de SV de Longo Leitura e Resolução de Haplótipos em Escala Populacional

Destaque de Pesquisa Publicada

Variação estrutural em 1.019 humanos diversos com base em sequenciação de long-read

Diário: Natureza
Publicado: 2025

Fundo

Projetos de genoma em escala populacional têm frequentemente dependido de recursos de leituras curtas. As leituras curtas são úteis para muitas variantes pequenas, mas podem não resolver adequadamente variantes estruturais, alterações mediadas por repetições e regiões genómicas difíceis. Isso é importante porque as variantes estruturais contribuem para a diversidade genética e podem moldar a arquitetura genómica específica de populações.

Um estudo da Nature de 2025 abordou este problema ao aplicar sequenciação de long-read a uma coorte genómica grande e diversificada. O estudo utilizou 1.019 amostras de 26 populações, tornando-se um exemplo público forte de como os dados de long-read podem melhorar a construção de recursos de SV e a análise consciente de haplótipos.

Métodos

O estudo combinou sequenciação de long-read da Oxford Nanopore com análise de genoma linear e em grafo. Os autores alinharam as leituras contra referências lineares e em grafo, utilizaram descoberta e genotipagem de SV ciente do grafo, e construíram um recurso de SV em escala populacional.

A análise também considerou a distribuição populacional, a atividade de elementos móveis, repetições em tandem de número variável multialélico e a análise relacionada a haplótipos. Este design mais amplo é relevante para equipas de investigação que planeiam genómica populacional, análise de diversidade ou interpretação de variantes complexas.

Resultados

O estudo reportou mais de 100.000 variantes estruturais bialélicas resolvidas por sequência e genotipou 300.000 repetições em tandem de número variável multialélicas.
Caracterizou deleções, duplicações, inserções e inversões entre populações.
A coorte incluiu 1.019 genomas de 26 grupos populacionais auto-relatados em cinco áreas continentais.
A Figura 1 apresenta a sequenciação de long-read e a estrutura SAGA, incluindo a divisão populacional, cobertura de sequência, comprimento de leitura e descoberta e genotipagem de SV conscientes do gráfico.
A Figura 10 de Dados Suplementares foca na precisão de haplotipagem direcionada, que é especialmente relevante para projetos onde locos complexos necessitam de interpretação a nível de haplótipos.

Long-read structural variation study framework and population-scale analysis overview A análise em larga escala com leituras longas pode apoiar a descoberta de variações estruturais, genotipagem e interpretação consciente do haplótipo.

Conclusão

Este caso de literatura apoia um ponto de decisão chave para projetos de SV e haplótipos: evidências de leitura longa podem revelar variação estrutural e padrões de haplótipos que são difíceis de capturar apenas com abordagens baseadas em SNP ou apenas com leituras curtas.

Para o planeamento de projetos, a lição é clara. Um projeto de SV útil não deve parar na sequenciação ou na chamada de variantes. Deve conectar a seleção de plataformas, a revisão de QC, a chamada de SV, a faseação, a anotação, a visualização e a elaboração de relatórios prontos para interpretação.

Publicações Relacionadas

As publicações seguintes apoiam a justificação científica para a deteção de variantes estruturais, faseamento de haplótipos, sequenciação de leituras longas e interpretação de variantes.

Variação estrutural em 1.019 humanos diversos com base em sequenciação de longas leituras

Diário: Natureza

Ano: 2025

Compromissos em métodos de alinhamento e montagem para a deteção de variantes estruturais com dados de sequenciação de longas leituras

Diário: Comunicações da Natureza

Ano: 2024

Duet: Chamada e faseamento de variantes estruturais assistidas por SNP utilizando sequenciação de nanopore Oxford

Diário: BMC Bioinformática

Ano: 2022

A leitura local de haplotipagem permite a chamada precisa de variantes pequenas em leituras longas.

Diário: Comunicações da Natureza

Ano: 2024