
Quando os SNPs Não São Suficientes: Por Que os Variações Estruturais e os Haplotipos São Importantes
Os SNPs e pequenas indels são úteis, mas são apenas uma camada da variação genómica. Muitas questões de investigação dependem de alterações genómicas maiores, como mudanças no número de cópias, grandes inserções, inversões, translocações, variantes associadas a repetições ou combinações de variantes específicas de alelos.
Um projeto de análise de variantes estruturais e haplótipos vai além de alterações base isoladas. Faz uma pergunta mais prática: qual arquitetura genómica está ligada à diferença biológica que está a estudar?
As variantes estruturais podem afetar a dosagem de genes, sequências codificadoras, regiões regulatórias, organização do genoma e intervalos candidatos. A análise de haplótipos acrescenta outra camada ao mostrar quais variantes ocorrem juntas no mesmo alelo ou fundo genómico. Esse contexto pode ser importante quando um sinal de pesquisa depende de blocos herdados, alelos parentais, estrutura populacional, diferenças entre linhagens ou variação a nível de cultivares.
A sequenciação de longas leituras é frequentemente valiosa nesta área porque as longas leituras podem abranger regiões repetitivas, rearranjos complexos e variantes ligadas que as leituras curtas podem não resolver bem. Estudos recentes demonstraram que a sequenciação de longas leituras pode melhorar a descoberta de variantes estruturais e a análise consciente de haplótipos em regiões genómicas difíceis.
Para muitas equipas, a questão principal não é simplesmente se os SVs estão presentes. A questão mais útil é se os SVs e haplótipos podem ser ligados a genes candidatos, regiões candidatas, diferenças entre grupos ou interpretações subsequentes. É aí que uma solução planeada é importante.
O que esta solução o ajuda a resolver
A nossa solução de Análise de Variantes Estruturais e Haplótipos é projetada para projetos onde a análise de variantes padrão deixa questões importantes em aberto.
Interpretação de traços complexos e regiões candidatas
Se o seu Estudo de associação genómica (GWAS), QTL-seq, Análise de Segregação em Massa (BSA)ou a análise populacional aponta para uma região candidata, os resultados a nível de SNP podem não explicar o sinal completo.
- Rever regiões candidatas para variação estrutural
- Conectar SVs com genes e anotações próximas
- Organizar evidências faseadas em torno da questão de pesquisa.
Comparação de população, estirpe, cultivar ou germoplasma
Em Genética Populacional, pesquisa de reprodução e estudos a nível de linhagens, a mesma região genética pode apresentar diferentes formas estruturais entre grupos.
- Compare padrões SV entre grupos.
- Resumir estruturas de haplótipos por população ou linhagem.
- Apoio a estudos de germoplasma e diversidade
Análise de organismos não modelo e genomas complexos
Muitas plantas, animais, microrganismos e organismos ambientais têm regiões repetitivas, qualidade de referência variável, alta heterozigosidade, poliploidia ou recursos genómicos incompletos.
- Rever o tamanho do genoma e o estado de referência
- Avalie a qualidade da amostra antes da seleção da plataforma.
- Adaptar a análise à complexidade do genoma.
Integração com análise a montante
Os resultados de SV e haplótipos são mais úteis quando se conectam ao resto do estudo.
As Nossas Capacidades de Serviço para Projetos de SV e Haplótipo
Não tratamos a análise de SV e haplótipos como um único pipeline padrão. Um plano de projeto útil depende da sua amostra, espécie, estrutura genómica, dados existentes e questão biológica.
Design de estratégia de sequenciação
Analisamos se o seu projeto está mais adequado para sequenciação de leituras curtas, sequenciação de leituras longas ou uma estratégia híbrida. Projetos focados em SVs grandes, repetições, haplótipos, locos complexos ou genomas não-modelo frequentemente beneficiam de evidências de leituras longas.
Quando a sequenciação de leitura longa é apropriada, podemos ajudá-lo a avaliar opções como Sequenciação SMRT da PacBio e Sequenciação por nanoporo.
Deteção e anotação de variantes estruturais
- Eliminações
- Inserções
- Inversões
- Duplicaçõe
- Translocações
- CNVs
- Rearranjos complexos, quando apoiados pelos dados
Para projetos focados em CNV, Serviços de Sequenciamento CNV pode ser considerado como um módulo relacionado.
Faseamento de haplótipos e interpretação consciente de haplótipos
A faseação de haplótipos ajuda a organizar variantes por alelo ou fundo genómico. Isso pode ajudar a sua equipa a entender se as variantes estão ligadas, como diferem entre grupos e se uma região candidata contém padrões de variantes faseadas que são relevantes para a interpretação.
Bioinformática personalizada
Os projetos de SV e haplótipos frequentemente necessitam de mais do que uma exportação de ficheiro padrão. A CD Genomics oferece Bioinformática, Análise de Dados Genómicose Serviço de Análise de Dados de Sequenciação de Longa Leitura para projetos que requerem design de análise personalizada, lógica de filtragem, comparação de coortes ou visualização pronta para relatórios.
Podemos preparar resultados que ajudem a sua equipa a rever e comunicar os resultados, incluindo tabelas de resumo de SV, ficheiros de variantes em fases, tabelas de anotação, faixas de navegador do genoma, figuras de resumo e relatórios de projeto.
Estratégia de Tecnologia: Leitura Longa, Leitura Curta ou Híbrida?
A melhor estratégia depende do que precisa de resolver. Nenhuma plataforma ou método de análise é o melhor para todos os projetos de SV e haplótipos. Um benchmark de 2024 da Nature Communications que compara métodos de deteção de SV baseados em alinhamento e em montagem encontrou trocas claras. Os métodos baseados em montagem tiveram um bom desempenho para SV grandes, especialmente inserções, enquanto os métodos baseados em alinhamento mostraram vantagens para a precisão de genotipagem a coberturas mais baixas e para algumas classes complexas de SV. O estudo também enfatizou que não existe uma ferramenta universalmente superior em todos os cenários.
| Estratégia | Melhor ajuste | Valor de deteção SV | Valor de haplótipo | Sensibilidade da amostra | Necessidades de bioinformática | Notas práticas |
|---|---|---|---|---|---|---|
| WGS de leitura curta | Descoberta de SNP/Indel, sequenciamento amplo, dados de coorte existentes | Limitado para SVs grandes ou complexos; útil para variantes pequenas e evidências de suporte. | Fase limitada, a menos que suportada por dados adicionais. | Geralmente mais tolerante a DNA fragmentado do que fluxos de trabalho de leitura longa. | Chamadas de variantes padrão, filtragem, anotação | Útil quando são necessários dados de variantes pequenas a nível de coorte. |
| Sequenciação de longas leituras HiFi da PacBio | Descoberta precisa de variantes de leitura longa, regiões complexas, análise consciente do haplótipo. | Forte para inserções, deleções, variantes associadas a repetições e regiões complexas. | Forte quando a leitura do comprimento e a precisão suportam a fase. | Requer DNA genómico de alta qualidade | Alinhamento de leituras longas, chamada de SV, faseamento, anotação | Boa opção quando tanto a precisão da sequência quanto o contexto de leitura longa são importantes. |
| Sequenciação de leitura longa da Oxford Nanopore | Leituras longas, potencial de leituras ultra-longas, regiões estruturais complexas | Útil para grandes SVs, leituras que abrangem repetições e rearranjos. | Pode suportar a fase quando a cobertura, a qualidade de leitura e o design do pipeline forem adequados. | Requer uma revisão cuidadosa da integridade do DNA, especialmente para objetivos ultra-longos. | Alinhamento ciente de ONT, chamada de SV, estratégia de polimento ou filtragem | Boa escolha quando o comprimento de leitura e o poder de abrangência são prioridades. |
| Leitura híbrida de curta e longa duração | Dados existentes de leituras curtas mais novas evidências de leituras longas | Combina um contexto de variantes amplo com evidências de SV de leitura longa. | Pode aumentar a confiança quando várias camadas de evidência concordam. | Depende de ambos os tipos de dados. | Integração, validação cruzada, relatórios consolidados | Útil quando o projeto já possui dados de WGS de leitura curta ou de re-sequenciamento. |
| Montagem resolvida por haplótipos | Genomas complexos, alta heterozigosidade, pan-genoma ou estudos específicos de alelos | Forte para a descoberta estrutural quando a qualidade da montagem é alta. | Forte para a estrutura genómica específica de alelos | Exige entrada de alta qualidade e um planeamento mais profundo. | Montagem, polimento, faseamento, comparação, anotação | Melhor quando é necessária uma base de genoma de nível de referência ou resolvida por alelos. |
Fluxo de Trabalho de Ponta a Ponta com Pontos de Verificação de QC
Desde a receção do projeto até resultados de SV e haplótipos prontos para relatório.

Começamos por rever a sua espécie, tipo de amostra, número de amostras, estado do genoma de referência, objetivo da pesquisa, tipos de variantes alvo e necessidades de análise posterior. Nesta fase, esclarecemos se o projeto se concentra na descoberta de SVs em genomas completos, numa região candidata, comparação populacional, comparação de material de reprodução, variação a nível de estirpe ou integração com resultados existentes.
Após a submissão da amostra, a qualidade do ADN genómico é verificada antes da preparação da biblioteca. Para fluxos de trabalho de leitura longa, a integridade do ADN é especialmente importante, pois moléculas longas melhoram a capacidade de abranger repetições, pontos de quebra e blocos de haplótipos. Se a amostra não corresponder ao fluxo de trabalho planeado, revemos possíveis ajustes antes de avançar.
Dependendo da estratégia confirmada, as amostras são direcionadas para sequenciação de leitura curta, leitura longa ou sequenciação híbrida. Para projetos de leitura longa, o objetivo é gerar leituras que possam suportar a deteção de variantes estruturais (SV), resolução de pontos de quebra e faseamento, sempre que os dados o permitam. As leituras são então alinhadas ao genoma de referência ou utilizadas em um fluxo de trabalho consciente da montagem quando apropriado.
As variantes estruturais são chamadas, filtradas, classificadas e anotadas. O faseamento de haplótipos é realizado quando os dados e o desenho do estudo o suportam. Os resultados podem então ser ligados a genes, regiões regulatórias, intervalos candidatos, grupos populacionais ou regiões associadas a traços. Você recebe arquivos de saída e um relatório de projeto que resumem a lógica da análise, os principais tipos de resultados, a estrutura dos arquivos e as saídas prontas para visualização.
Requisitos de Amostra e Informações de Entrada do Projeto
A qualidade da amostra afeta diretamente a análise de SV e haplótipos de long-read. O DNA de alto peso molecular é especialmente importante quando o projeto depende de evidências de long-read em repetições, pontos de quebra de SV ou regiões faseadas.
Os requisitos finais da amostra dependem da espécie, tamanho do genoma, tipo de amostra, plataforma e objetivo do projeto. Antes da confirmação do projeto, a nossa equipa analisa as informações abaixo e recomenda o fluxo de trabalho mais adequado.
| Tipo de amostra ou entrada | O que revisamos | Foco na qualidade | Pontos de controlo típicos de QC | Notas |
|---|---|---|---|---|
| DNA genómico de alto peso molecular para análise de leituras longas | Integridade do DNA, concentração, pureza, método de extração, histórico da amostra | Fragmentos de ADN longos, baixa degradação, baixa contaminação | Qubit, NanoDrop, gel, PFGE ou revisão do tamanho de fragmentos onde aplicável | Melhor para projetos que dependem de evidências de long-read em repetições, pontos de quebra de SV ou regiões faseadas. |
| DNA genómico padrão para suporte a WGS de leituras curtas | Quantidade de DNA, pureza, degradação, consistência da amostra | Qualidade de entrada estável para a construção de bibliotecas | Qubit, NanoDrop, verificação de gel, QC da biblioteca | Útil quando dados de leituras curtas suportam análise a nível de coorte ou híbrida. |
| Ficheiros FASTQ, BAM, CRAM ou VCF existentes | Formato de ficheiro, fonte da plataforma, metadados de amostra, versão do genoma de referência | Integridade do ficheiro, completude de metadados, compatibilidade com a análise planeada. | Verificação de integridade do ficheiro, verificação de formato, revisão de metadados | Pode apoiar a reanálise, integração híbrida ou interpretação a jusante. |
| Material de tecido, célula, planta, microbiano ou ambiental | Amostra de origem, condição de preservação, qualidade de ADN esperada, viabilidade da extração | Adequação para extração de DNA e sequenciação subsequente | Inspeção de amostras, revisão da viabilidade de extração, controlo de qualidade de entrada após extração. | O suporte à extração pode ser considerado quando a submissão direta de ADN não estiver disponível. |
| Conjuntos de dados existentes de GWAS, QTL, BSA, pan-genoma ou população | Desenho do estudo, rótulos dos grupos, regiões candidatas, versão de referência, formato dos resultados | Compatibilidade com SV e interpretação de haplótipos | Revisão de metadados, revisão do sistema de coordenadas, revisão do ficheiro de resultados. | Ajuda a conectar os resultados de SV e haplótipos com questões biológicas subsequentes. |
Análise e Resultados de Bioinformática
O principal valor desta solução não é apenas a geração de dados. O valor vem de transformar evidências de SV e haplótipos em resultados organizados, reutilizáveis e interpretáveis.
Focamo-nos nos resultados que a sua equipa pode realmente utilizar: ficheiros para reanálise, tabelas para revisão, trilhos para visualização e relatórios que explicam o que foi feito.
Entregas mínimas
- Resumo da QC de dados brutos
- Distribuição do comprimento e qualidade da leitura
- Resumo de alinhamento
- Resumo da cobertura
- Conjunto de chamadas de variantes estruturais
- Tabela de anotação SV
- Resultados de fase de haplótipos
Complementos opcionais
- análise focada em CNV
- Comparação de SV a nível populacional
- Comparação da frequência de haplótipos
- Integração de GWAS, QTL-seq ou BSA
- Comparação do pan-genoma
- Anotação da região candidata
Tipos de ficheiros de saída
- Arquivos FASTQ, BAM ou CRAM, quando aplicável.
- Ficheiros VCF ou ficheiros VCF faseados
- Ficheiros de anotação no estilo BED ou GFF
- Tabelas resumo TSV ou CSV
- Faixas do navegador do genoma
- Relatório de projeto em formato PDF ou estilo HTML
Como Escolher a Estratégia Certa de Análise de SV e Haplótipo
Uma boa estratégia começa com a questão biológica. Ajudamo-lo a decidir que camada de evidência e profundidade de análise são necessárias antes de avançar para a execução do projeto.
Escolha o longo-primeiro quando a complexidade estrutural for central.
Uma estratégia de leitura longa-primeiro é frequentemente apropriada quando o seu projeto se concentra em grandes inserções, deleções, inversões, translocações, repetições, loci complexos ou blocos de haplótipos.
Escolha a análise híbrida quando os dados de leitura curta existentes puderem agregar valor.
Se já tiver dados de WGS de leitura curta, re-sequenciamento, GWAS, QTL ou BSA, uma estratégia híbrida pode ajudar a reutilizar as evidências existentes enquanto adiciona suporte de leitura longa para questões de SV e faseamento.
Adicione análise populacional ou de traços quando a interpretação depender de grupos.
Se a sua pesquisa compara populações, estirpes, cultivares, famílias ou grupos fenotípicos, a análise não deve parar na chamada de SV de amostra única.
Adicione bioinformática personalizada quando as saídas padrão não forem suficientes.
Um ficheiro VCF padrão pode não responder à sua questão de investigação. A bioinformática personalizada pode ajudar a conectar SVs e haplótipos a genes, intervalos, anotações funcionais, diferenças entre grupos ou visualizações prontas para relatório.
Referências
- Variação estrutural em 1.019 humanos diversos com base em sequenciação de longas leituras
- Compromissos em métodos de alinhamento e montagem para deteção de variantes estruturais com dados de sequenciação de longas leituras
- Duet: Chamada de variantes estruturais assistida por SNP e faseamento utilizando sequenciação por nanopore de Oxford
- A haplotipagem local permite a chamada precisa de variantes pequenas em leituras longas.
Conformidade / Isenção de responsabilidade
A CD Genomics oferece este serviço apenas para Uso em Pesquisa (RUO). Este serviço não se destina a diagnóstico clínico, interpretação médica direta ou testes diretos ao consumidor.
Resultados da Demonstração
Os resultados da demonstração ajudam a sua equipa a entender como pode ser a análise final antes de iniciar o projeto. Estes exemplos mostram tipos de resultados, não conclusões biológicas fixas.

Resumo da paisagem SV
Esta saída resume as deleções, inserções, inversões, duplicações, translocações e CNVs entre amostras ou regiões.

Bloco de haplótipos e vista de variantes faseadas
Esta saída mostra variantes em fase numa região, ajudando a ver quais variantes ocorrem juntas no mesmo haplótipo.

Interpretação integrada da região do candidato
Esta saída combina chamadas SV, variantes em fase, anotação de genes e sinais de comparação de grupos numa única região.
Perguntas Frequentes
1. O que é análise de variantes estruturais e haplótipos?
A análise de variantes estruturais e haplótipos identifica grandes alterações genómicas e organiza variantes por alelo ou fundo genómico ligado. Pode incluir a chamada de variantes estruturais, análise de CNV, revisão de pontos de ruptura, faseamento, anotação, visualização e interpretação subsequente.
2. Quando a análise de variantes apenas de SNP não é suficiente?
A análise apenas de SNPs pode ser insuficiente quando o sinal de pesquisa envolve grandes inserções, deleções, inversões, duplicações, CNVs, translocações, repetições ou padrões específicos de alelos ligados. Se uma região candidata parecer importante, mas os SNPs não explicarem o padrão, a análise de SV e haplótipos pode ser útil.
3. Por que é que leituras longas são úteis para a deteção de variantes estruturais?
Leituras longas podem abranger regiões genómicas maiores, sequências repetitivas e pontos de quebra de variantes. Isso torna-as úteis para detectar e resolver SVs que podem ser difíceis de caracterizar apenas com leituras curtas.
4. Como é que o PacBio e o Nanopore diferem em projetos de SV e haplótipos?
Os fluxos de trabalho ao estilo PacBio são frequentemente valorizados por leituras longas precisas, enquanto os fluxos de trabalho ao estilo Nanopore podem fornecer leituras muito longas e uma forte capacidade de cobertura. A melhor escolha depende da qualidade da amostra, da complexidade do genoma, dos tipos de variantes-alvo, das necessidades de comprimento de leitura e dos objetivos de análise subsequente.
5. Esta solução pode funcionar para organismos não-modelo?
Sim, muitos projetos com organismos não modelo são adequados, mas o design do fluxo de trabalho é importante. Analisamos a qualidade do genoma de referência, o tamanho do genoma, o conteúdo de repetições, a heterozigosidade, a ploidia e a qualidade da amostra antes de recomendar uma estratégia.
6. Que informações de amostra são necessárias antes de recomendar um fluxo de trabalho?
Normalmente, precisamos de espécies, tipo de amostra, número de amostras, quantidade de ADN disponível, qualidade do ADN, estado do genoma de referência, dados de sequenciação existentes, tipos de variantes alvo e a principal questão de investigação.
7. Quais são os entregáveis que posso esperar?
Os entregáveis podem incluir resumos de QC, ficheiros de alinhamento, conjuntos de chamadas de SV, saídas de variantes faseadas, tabelas de anotação, ficheiros prontos para visualização, faixas para navegadores do genoma e um relatório do projeto. Os outputs opcionais podem incluir comparação de coortes ou interpretação de regiões candidatas.
8. Podem os resultados de SV e haplótipos ser integrados com GWAS, QTL-seq, BSA ou análise de pan-genoma?
Sim. Os resultados de SV e haplótipos podem ser ligados a intervalos mapeados, regiões candidatas, grupos populacionais, padrões de presença/ausência do pan-genoma ou sinais associados a traços quando o desenho do estudo o suporta.
9. Você fornece saídas prontas para visualização?
Sim. Podemos preparar figuras resumidas, faixas de navegador do genoma, gráficos a nível de região, resumos de classes de SV, visualizações de blocos de haplótipos e painéis de regiões candidatas quando estas saídas estão incluídas no plano de análise.
10. Como devo decidir entre uma solução apenas de sequenciação e uma solução de análise completa?
Apenas o sequenciamento pode ser suficiente se a sua equipa já tiver um pipeline validado e um plano de interpretação claro. Uma solução de análise completa é mais útil quando precisa de ajuda com a seleção de plataformas, chamada de SV, faseamento, anotação, visualização e interpretação biológica subsequente.
Caso de Literatura: Descoberta de SV de Longo Leitura e Resolução de Haplótipos em Escala Populacional
Destaque de Pesquisa Publicada
Variação estrutural em 1.019 humanos diversos com base em sequenciação de long-read
Diário: Natureza
Publicado: 2025
Fundo
Projetos de genoma em escala populacional têm frequentemente dependido de recursos de leituras curtas. As leituras curtas são úteis para muitas variantes pequenas, mas podem não resolver adequadamente variantes estruturais, alterações mediadas por repetições e regiões genómicas difíceis. Isso é importante porque as variantes estruturais contribuem para a diversidade genética e podem moldar a arquitetura genómica específica de populações.
Um estudo da Nature de 2025 abordou este problema ao aplicar sequenciação de long-read a uma coorte genómica grande e diversificada. O estudo utilizou 1.019 amostras de 26 populações, tornando-se um exemplo público forte de como os dados de long-read podem melhorar a construção de recursos de SV e a análise consciente de haplótipos.
Métodos
O estudo combinou sequenciação de long-read da Oxford Nanopore com análise de genoma linear e em grafo. Os autores alinharam as leituras contra referências lineares e em grafo, utilizaram descoberta e genotipagem de SV ciente do grafo, e construíram um recurso de SV em escala populacional.
A análise também considerou a distribuição populacional, a atividade de elementos móveis, repetições em tandem de número variável multialélico e a análise relacionada a haplótipos. Este design mais amplo é relevante para equipas de investigação que planeiam genómica populacional, análise de diversidade ou interpretação de variantes complexas.
Resultados
- O estudo reportou mais de 100.000 variantes estruturais bialélicas resolvidas por sequência e genotipou 300.000 repetições em tandem de número variável multialélicas.
- Caracterizou deleções, duplicações, inserções e inversões entre populações.
- A coorte incluiu 1.019 genomas de 26 grupos populacionais auto-relatados em cinco áreas continentais.
- A Figura 1 apresenta a sequenciação de long-read e a estrutura SAGA, incluindo a divisão populacional, cobertura de sequência, comprimento de leitura e descoberta e genotipagem de SV conscientes do gráfico.
- A Figura 10 de Dados Suplementares foca na precisão de haplotipagem direcionada, que é especialmente relevante para projetos onde locos complexos necessitam de interpretação a nível de haplótipos.
A análise em larga escala com leituras longas pode apoiar a descoberta de variações estruturais, genotipagem e interpretação consciente do haplótipo.
Conclusão
Este caso de literatura apoia um ponto de decisão chave para projetos de SV e haplótipos: evidências de leitura longa podem revelar variação estrutural e padrões de haplótipos que são difíceis de capturar apenas com abordagens baseadas em SNP ou apenas com leituras curtas.
Para o planeamento de projetos, a lição é clara. Um projeto de SV útil não deve parar na sequenciação ou na chamada de variantes. Deve conectar a seleção de plataformas, a revisão de QC, a chamada de SV, a faseação, a anotação, a visualização e a elaboração de relatórios prontos para interpretação.
Publicações Relacionadas
As publicações seguintes apoiam a justificação científica para a deteção de variantes estruturais, faseamento de haplótipos, sequenciação de leituras longas e interpretação de variantes.
Variação estrutural em 1.019 humanos diversos com base em sequenciação de longas leituras
Diário: Natureza
Ano: 2025
Diário: Comunicações da Natureza
Ano: 2024
Diário: BMC Bioinformática
Ano: 2022
A leitura local de haplotipagem permite a chamada precisa de variantes pequenas em leituras longas.
Diário: Comunicações da Natureza
Ano: 2024
