A taxa de duplicação refere-se à percentagem de leituras duplicadas nas sequências sequenciadas totais. Quanto maior a taxa de duplicação, menor a utilização dos dados e maior o custo de sequenciação desperdiçado.
• Detecção Abrangente de Variações: Re-sequenciamento do genoma completo permite a deteção de vários tipos de variantes genéticas, proporcionando uma visão abrangente do genoma. Isto inclui tanto variantes comuns como raras em todo o genoma.
• Alta Resolução: O re-sequenciamento proporciona um elevado nível de resolução, permitindo a deteção de variações genéticas subtis.
• Descoberta de Novas Variantes: O re-sequenciamento do genoma completo pode revelar variantes desconhecidas ou raras que podem estar associadas a doenças ou características específicas, permitindo novas descobertas e insights sobre a genética humana.
A resequenciação é realizada com um genoma de referência para identificar variantes genéticas, enquanto a sequenciação e montagem de novo são utilizadas quando não há um genoma de referência disponível para reconstruir o genoma inteiro do zero.
• valores duplicados devido às próprias amostras: tamanho de amostra pequeno, baixa diversidade da amostra (por exemplo, ctDNA, etc.), etc;
• valores duplicados resultantes do processo de construção da biblioteca:
fragmentação: aleatoriedade, homogeneidade e tamanho do fragmento;
ligação de junção: quanto maior a eficiência da ligação, melhor a diversidade molecular e menor a taxa de duplicação.
• Amplificação por PCR: o conteúdo de GC do fragmento está relacionado com a eficiência de amplificação da amostra.
• Efeito da geração de clusters na duplicação: densidade apropriada de geração de clusters
• Dup causado por resolução óptica: erros na coleta de sinal.
A escolha da plataforma de sequenciação depende de fatores como os objetivos do experimento, o organismo e os recursos disponíveis. A Illumina é frequentemente utilizada para re-sequenciação e deteção de variantes, enquanto PacBio ou Oxford Nanopore são melhores para montagem de novo e detetar grandes variantes estruturaisA Illumina é rentável, e a sequenciação de long-read é útil para genomas complexos. Considere os requisitos do projeto para tomar uma decisão informada.
A cobertura necessária para sequenciação depende de vários fatores, como os objetivos específicos do seu experimento, o organismo em estudo e o nível de confiança desejado na deteção de variantes ou na montagem do genoma. Aqui estão algumas recomendações gerais para a cobertura:
NGS (por exemplo, Illumina):
• Análise de variantes germinativas/frequentes: cobertura de 20-50x.
• Análise de variantes somáticas/raras: cobertura de 100-1000x.
• Comparação Tumor vs. Normal: cobertura ≥60x para tumor, cobertura ≥30x para normal.
• Estudos populacionais: cobertura de 20-50x.
• Montagem de novo: cobertura de 100-1000x. Sequenciação de leitura longa (por exemplo, PacBio):
• Preenchimento de lacunas e suporte: 10x cobertura.
• Detecção de variantes estruturais grandes: cobertura de 10x.
• Análise de variantes germinativas/frequentes: cobertura de 20-50x.
• Montagem de novo: cobertura de 50-100x.
Na plataforma PacBio Sequel, são tipicamente alcançados comprimentos de leitura médios de 10-15 kb, com comprimentos máximos de leitura que podem chegar até 60 kb. É importante notar que os comprimentos de leitura reais obtidos podem variar dependendo de vários fatores, incluindo as condições específicas de sequenciação, a qualidade da amostra de DNA e o método de preparação da biblioteca utilizado.
A triagem é geralmente feita por frequência e impacto funcional em bases de dados públicas, depois por informações sobre o fenótipo da doença ou padrão genético, e em seguida, fatores como risco proteico e conservatividade são considerados.
O sequenciamento de genoma completo para analisar mutações somáticas (direção tumoral) requer amostras pareadas, como tecido canceroso e tecido para-canceroso do mesmo paciente, ou tecido canceroso e sangue total do mesmo paciente.
Existem duas principais formas de fragmentar o DNA: fragmentação física e fragmentação enzimática. A fragmentação física utiliza principalmente a fragmentação mecânica para quebrar o genoma de forma aleatória, como a fragmentação ultrassónica, aerosolização, etc. A fragmentação enzimática utiliza principalmente a função de cisalhamento das enzimas para fragmentar o genoma. O método de fragmentação enzimática é simples de operar, mas o método de fragmentação física apresenta uma melhor aleatoriedade na fragmentação.
Dependendo de se a amplificação por PCR é necessária durante a preparação da biblioteca, existem dois tipos de opções de preparação de biblioteca: amplificada por PCR e livre de PCR.