Na bioinformática, a montagem do genoma representa o processo de juntar um grande número de curtas sequências de DNA para recriar os cromossomos originais de onde o DNA se originou. A montagem de sequências é um dos passos básicos após realizar sequenciação de nova geração, sequenciação PacBio SMRT ou sequenciação Nanopore. A montagem do genoma estabelecida pode ser submetida a bases de dados como o Arquivo Europeu de Nucleotídeos, NCBI Assembly e Ensembl Genomes. Você também pode navegar por essas bases de dados para sequências genómicas realizadas por outros pesquisadores.
Dois tipos de montagem do genoma
Existem dois tipos diferentes de montagem do genoma: de novo montagem e mapeamento para um genoma de referência (também conhecido como alinhamento baseado em referência). A montagem de novo refere-se à montagem do genoma de um novo genoma do zero, sem a ajuda de dados genómicos de referência. Um genoma de referência ou uma montagem de referência é uma base de dados digital de sequências de ácidos nucleicos, atuando como um exemplo representativo do conjunto de genes de uma espécie. Uma vez que o genoma de referência está disponível, com a sua ajuda, a montagem do genoma torna-se muito mais fácil, rápida e até mais precisa. Portanto, a menos que seja necessário, os pesquisadores escolhem o método de alinhamento baseado em referência. O alinhamento baseado em referência tornou-se o padrão atual em diagnósticos.
Tabela 1. Alinhamento baseado em referência vs. de novo montagem.
| Alinhamento baseado em referência | De novo montagem | |
| Vantagens |
|
|
| Desvantagens |
|
|
Avaliação de uma montagem
Após a montagem do genoma, é importante avaliar a qualidade da montagem. A tabela a seguir lista algumas das métricas de montagem importantes e comumente usadas. N50 é a métrica mais comumente utilizada, que representa o menor comprimento de scaffold ou contig acima do qual 50% de uma montagem. Ela descreve a "completude" de uma montagem.
Figura 1. O exemplo de cálculo de N50.
Tabela 2. Algumas estatísticas comuns usadas na avaliação da qualidade de uma montagem
| Métricas | Descrição |
| N50 | N50 significa que metade da sequência do genoma é maior ou igual ao tamanho do contig N50 (↑). |
| NG50 | O comprimento do scaffold no qual 50% do comprimento do genoma está coberto (↑). |
| Cobertura | Se 90% das bases têm pelo menos 5X de cobertura de leitura, o genoma é considerado preciso (↑). |
| N90 | Uma montagem é considerada ter continuidade desde que seu N90 > 5 Kb (↑). |
| Comprimento médio do contig | O comprimento médio do contig deve ser superior a 5000 bases (5 Kb) (↑). |
| Número de genes | Se uma montagem identifica a maioria dos genes conhecidos, é considerada uma melhor montagem (↑). |
| Número de lacunas | As lacunas em uma montagem diminuem a qualidade (↓). |
| Validade | Uma montagem pode ser validada pela sequência de referência (↑). |
Note que um ↑ indica que quanto maior, melhor e um ↓ implica que quanto menor, melhor.
Fatores que afetam os resultados da montagem do genoma
Além do processo de montagem do genoma, as seguintes questões podem afetar fortemente a qualidade da montagem do genoma. A sequenciação de extremidade pareada e a tecnologia de leitura longa são duas estratégias para melhorar a qualidade da montagem do genoma.
1. Propriedades do genoma
As propriedades do genoma podem afetar a montagem do genoma.
2. Extração de Ácidos Nucleicos
Para a isolação de DNA ou isolação de RNA, aqui estão algumas coisas a ter em mente: integridade do DNA/RNA, purificação de DNA/RNA, quantidade suficiente de DNA/RNA, etc. Comparado com a re-sequenciação, a sequenciação de novo requer ácidos nucleicos superiores. Os parâmetros de qualidade de ácidos nucleicos mais importantes para NGS são a pureza química e a integridade estrutural.
3. Métodos de sequenciação
A determinação dos métodos de sequenciação é um fator importante que influencia o custo e o sucesso de uma montagem do genoma. O NGS foi aplicado em muitos projetos notáveis, como o Projeto dos 1.000 Genomas e o Projeto do Microbioma Humano. No entanto, alguns genes importantes de interesse não podem ser montados corretamente, principalmente devido à interrupção de elementos repetidos. A sequenciação de terceira geração é uma solução promissora para esse problema, baseada em leituras longas que abrangem as regiões repetitivas.
4. Processamento de dados brutos
Embora existam ferramentas de montagem que preferem lidar com os dados brutos, incluindo sequências de adaptadores potenciais, recomendamos fortemente que os pesquisadores estudem o manual para determinar se o programa requer dados com qualidade ajustada ou não. Se o ajuste de dados for necessário, será necessário omitir dados de baixa qualidade ajustando as extremidades de leitura de baixa qualidade e filtrando leituras de baixa qualidade. Várias ferramentas estão disponíveis para esse propósito, como PRINSEQ32 e Trimmomatic33.
Referências: