Uma Visão Geral da Montagem do Genoma

Na bioinformática, a montagem do genoma representa o processo de juntar um grande número de curtas sequências de DNA para recriar os cromossomos originais de onde o DNA se originou. A montagem de sequências é um dos passos básicos após realizar sequenciação de nova geração, sequenciação PacBio SMRT ou sequenciação Nanopore. A montagem do genoma estabelecida pode ser submetida a bases de dados como o Arquivo Europeu de Nucleotídeos, NCBI Assembly e Ensembl Genomes. Você também pode navegar por essas bases de dados para sequências genómicas realizadas por outros pesquisadores.

Dois tipos de montagem do genoma

Existem dois tipos diferentes de montagem do genoma: de novo montagem e mapeamento para um genoma de referência (também conhecido como alinhamento baseado em referência). A montagem de novo refere-se à montagem do genoma de um novo genoma do zero, sem a ajuda de dados genómicos de referência. Um genoma de referência ou uma montagem de referência é uma base de dados digital de sequências de ácidos nucleicos, atuando como um exemplo representativo do conjunto de genes de uma espécie. Uma vez que o genoma de referência está disponível, com a sua ajuda, a montagem do genoma torna-se muito mais fácil, rápida e até mais precisa. Portanto, a menos que seja necessário, os pesquisadores escolhem o método de alinhamento baseado em referência. O alinhamento baseado em referência tornou-se o padrão atual em diagnósticos.

Tabela 1. Alinhamento baseado em referência vs. de novo montagem.

	Alinhamento baseado em referência	De novo montagem
Vantagens	Bom para SNV e pequenas indels Funciona para deleções e duplicações utilizando informações de cobertura Método rápido para montar o genoma Oculta limitações dos dados brutos Mais ferramentas para trabalhar com os resultados Facilita a anotação e comparação	Não depende de um genoma de referência Usado para pesquisar genes/transcritos desconhecidos (como transcritos com novas intrões, locais de splicing alterados) Bom para variações estruturais
Desvantagens	Requer um genoma de referência Limitado pelo comprimento da leitura para detecção de características	Requer dados brutos de muito alta qualidade Método lento e requer alta infraestrutura

Avaliação de uma montagem

Após a montagem do genoma, é importante avaliar a qualidade da montagem. A tabela a seguir lista algumas das métricas de montagem importantes e comumente usadas. N50 é a métrica mais comumente utilizada, que representa o menor comprimento de scaffold ou contig acima do qual 50% de uma montagem. Ela descreve a "completude" de uma montagem.

Uma Visão Geral da Montagem do Genoma Figura 1. O exemplo de cálculo de N50.

Tabela 2. Algumas estatísticas comuns usadas na avaliação da qualidade de uma montagem

Métricas	Descrição
N50	N50 significa que metade da sequência do genoma é maior ou igual ao tamanho do contig N50 (↑).
NG50	O comprimento do scaffold no qual 50% do comprimento do genoma está coberto (↑).
Cobertura	Se 90% das bases têm pelo menos 5X de cobertura de leitura, o genoma é considerado preciso (↑).
N90	Uma montagem é considerada ter continuidade desde que seu N90 > 5 Kb (↑).
Comprimento médio do contig	O comprimento médio do contig deve ser superior a 5000 bases (5 Kb) (↑).
Número de genes	Se uma montagem identifica a maioria dos genes conhecidos, é considerada uma melhor montagem (↑).
Número de lacunas	As lacunas em uma montagem diminuem a qualidade (↓).
Validade	Uma montagem pode ser validada pela sequência de referência (↑).

Note que um ↑ indica que quanto maior, melhor e um ↓ implica que quanto menor, melhor.

Fatores que afetam os resultados da montagem do genoma

Além do processo de montagem do genoma, as seguintes questões podem afetar fortemente a qualidade da montagem do genoma. A sequenciação de extremidade pareada e a tecnologia de leitura longa são duas estratégias para melhorar a qualidade da montagem do genoma.

1. Propriedades do genoma

As propriedades do genoma podem afetar a montagem do genoma.

Tamanho do genoma. Quanto maior o genoma, mais dados são necessários. Portanto, antes de solicitar dados de sequência, você precisa estimar o tamanho do genoma, que pode ser inferido investigando o tamanho do genoma de espécies estreitamente relacionadas.
Repetições. A quantidade e a distribuição de sequências repetidas em um genoma influenciam amplamente os resultados da montagem do genoma. Isso pode levar a montagens incorretas e a uma estimativa errada do tamanho das repetições.
Heterozigosidade. Se o genoma for altamente heterozigoto, as leituras de sequência de alelos homólogos podem ser muito diferentes para serem unidas, levando provavelmente a montagens mais fragmentadas ou criando dúvidas sobre a homologia dos contigs.
Nível de ploidia. Se possível, é melhor sequenciar tecido haploide, evitando problemas causados pela heterozigosidade.
Conteúdo de GC. Um conteúdo de GC inhomogéneo pode causar problemas para a sequenciação Illumina, resultando em baixa cobertura nessas regiões.

2. Extração de Ácidos Nucleicos

Para a isolação de DNA ou isolação de RNA, aqui estão algumas coisas a ter em mente: integridade do DNA/RNA, purificação de DNA/RNA, quantidade suficiente de DNA/RNA, etc. Comparado com a re-sequenciação, a sequenciação de novo requer ácidos nucleicos superiores. Os parâmetros de qualidade de ácidos nucleicos mais importantes para NGS são a pureza química e a integridade estrutural.

3. Métodos de sequenciação

A determinação dos métodos de sequenciação é um fator importante que influencia o custo e o sucesso de uma montagem do genoma. O NGS foi aplicado em muitos projetos notáveis, como o Projeto dos 1.000 Genomas e o Projeto do Microbioma Humano. No entanto, alguns genes importantes de interesse não podem ser montados corretamente, principalmente devido à interrupção de elementos repetidos. A sequenciação de terceira geração é uma solução promissora para esse problema, baseada em leituras longas que abrangem as regiões repetitivas.

4. Processamento de dados brutos

Embora existam ferramentas de montagem que preferem lidar com os dados brutos, incluindo sequências de adaptadores potenciais, recomendamos fortemente que os pesquisadores estudem o manual para determinar se o programa requer dados com qualidade ajustada ou não. Se o ajuste de dados for necessário, será necessário omitir dados de baixa qualidade ajustando as extremidades de leitura de baixa qualidade e filtrando leituras de baixa qualidade. Várias ferramentas estão disponíveis para esse propósito, como PRINSEQ32 e Trimmomatic33.

Referências:

Wajid B, Serpedin E. Guia faça você mesmo para montagem de genoma. Briefings in functional genomics, 2014, 15(1): 1-9.
Victoria D D A, Erik H, Lieven S, et al. Dez passos para começar na montagem e anotação de genomas. F1000Research, 2018, 7.

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados