Análise Bioinformática do Genoma do Cloroplasto
Genoma do Cloroplasto
Os cloroplastos são uma característica ubíqua nas plantas, abrigando o genoma dos cloroplastos, uma molécula de DNA circular de dupla cadeia. Uma única planta contém múltiplos cloroplastos, cada um abrigando 12 moléculas de cpDNA.
O tamanho típico de um genoma do cloroplasto da planta varia entre 150 a 160 kb, enquanto as algas tendem a ter genomas ligeiramente menores, em torno de 80 a 100 kb. Estes genomas estão organizados em quatro regiões distintas: a Cópia Única Grande (LSC), a Cópia Única Pequena (SSC) e duas regiões de Repetição Invertida (IR) situadas entre a LSC e a SSC. À medida que a tecnologia de sequenciação de alto rendimento avança a um ritmo sem precedentes, a utilização de cloroplastos como meio para investigar a origem, estrutura e evolução de organelas está a ganhar cada vez mais atenção e interesse.
Mapa representativo do genoma do cloroplasto de Chrysosplenium. (Yang et al., 2023)
Análise de Covariância em Genética
A covariância, no contexto da genética, refere-se ao fenómeno da ligação genética. Ocorre quando genes homólogos estão dispostos na mesma ordem nos cromossomas de diferentes espécies. A extensão da covariância entre duas espécies serve como uma métrica valiosa para avaliar a sua divergência evolutiva e aferir a sua relação genética.
Conduzindo um análise de covariância envolve o estudo de blocos de covariância específicos e localizados dentro dos genomas. Esta análise pode lançar luz sobre vários eventos evolutivos, incluindo semelhanças, rearranjos, inversões e outras alterações genéticas que ocorreram ao longo da evolução das espécies.
Análise de Árvore Filogenética
Uma árvore filogenética, também conhecida como filogenia, é um diagrama ramificado que representa visualmente as relações entre espécies, permitindo-nos compreender a sua história evolutiva. A análise de árvores filogenéticas serve a vários propósitos-chave, incluindo a identificação das conexões evolutivas entre espécies, a descoberta dos laços entre sequências ancestrais e descendentes, e a estimativa do tempo de divergência entre um grupo de espécies que partilham um ancestral comum.
Os genomas de organelas, devido à sua elevada conservação, são frequentemente utilizados para construir árvores filogenéticas para a classificação e avaliação do estado evolutivo tanto de plantas como de animais. Estão disponíveis dois métodos para construção de árvores filogenéticas de organelas:
- Construção de Árvore Baseada em Matriz de SNP Populacional: Esta abordagem envolve a geração de uma árvore evolutiva utilizando a matriz de SNP populacional derivada de amostras e genomas de referência. Para cada amostra, todos os Polimorfismos de Nucleotídeo Único (SNPs) são alinhados na mesma ordem, produzindo sequências do mesmo comprimento em formato fasta, incluindo uma sequência de referência. Estas sequências alinhadas são então utilizadas como dados de entrada para a construção da árvore filogenética.
- Construção de Árvores Baseadas em Genes Centrais: Neste método, as árvores filogenéticas são construídas com base em genes centrais que estão presentes como genes de cópia única dentro do genoma do organelo. As múltiplas sequências desses genes centrais são alinhadas utilizando o software MUSCLE v3.8.31, e os dados de alinhamento resultantes são usados para construir a árvore evolutiva, revelando as relações genéticas entre as espécies.
Deteção de Variações Estruturais em Genomas de Cloroplastos
O processo de deteção de variações estruturais em genomas de organelas abrange principalmente três tipos: Polimorfismos de Nucleotídeo Único (SNP), Inserções/Deleções (InDel) e Variações Estruturais (SV). Comparar os genomas de organelas de espécies intimamente relacionadas com genomas de referência é um passo crucial para entender e analisar as variações presentes em indivíduos ou populações.
- SNP (Polimorfismo de Nucleótido Único)
SNPs são variações nas sequências de DNA resultantes de uma alteração de um único nucleótido. Essas alterações podem ocorrer dentro de genes codificadores ou sequências não codificadoras. Os SNPs dentro de regiões codificadoras, conhecidos como SNPs codificadores (cSNPs), são particularmente importantes, pois têm o potencial de impactar as características funcionais de um indivíduo.
- InDel (Inserção/Deleção)
InDel serve como um termo coletivo para a inserção e deleção de sequências de DNA. Num contexto mais específico, InDel estreito refere-se a inserções ou deleções relativamente curtas, tipicamente variando de 1 a 10 pares de bases. Nas regiões codificantes do genoma, eventos de InDel podem levar a mutações de mudança de quadro, alterações nas sequências de aminoácidos e até mesmo à formação de pseudogenes. O foco aqui está na análise dessas variações de InDel estreito.
- Variação Estrutural (VE)
Variações Estruturais abranger uma variedade de alterações genómicas, como deleções, inserções, duplicações, inversões e relocações ectópicas de fragmentos de DNA dentro do genoma. Para identificar SVs, o software MUMmer é utilizado para comparar o genoma do orgânulo alvo com um genoma de referência. Subsequentemente, o LASTZ é utilizado para realizar comparações de região para região, identificando assim SVs no genoma do orgânulo através da análise dos resultados da comparação.
Análise de Genes Comuns e Específicos
Dentro de um conjunto de amostras genéticas, os genes que partilham homologia entre todas as amostras são referidos como 'genes centrais'. Por outro lado, os genes que não são comuns após a remoção dos genes centrais são categorizados como 'genes dispensáveis'. 'Genes específicos' designam genes que são únicos para uma amostra particular. Estes genes partilhados e específicos correspondem frequentemente às características comuns e distintivas das respetivas amostras. Eles servem como uma base fundamental para explorar as disparidades funcionais entre as amostras.
Análise da Preferência de Códons
A preferência de códon, também conhecida como viés de uso de códon, quantifica a probabilidade relativa de um códon específico aparecer entre códon sinónimos que codificam o mesmo aminoácido. O valor da preferência de códon é tipicamente determinado através do cálculo do Uso Relativo de Códons Sinónimos (RSCU). O estudo dos padrões de uso de códon tem uma importância significativa, pois fornece informações sobre as pressões evolutivas sobre as espécies e desempenha um papel crucial no avanço de investigações genéticas.
Análise de Repetições de Sequência Simples (SSR)
Repetições de Sequência Simples (SSR), também conhecidas como microssatélites (MS)são fragmentos de ADN caracterizados pela repetição de sequências curtas que compreendem 1-6 nucleótidos. Estes SSRs são abundantes, altamente polimórficos, distribuídos de forma uniforme por todo o genoma, co-dominantes e relativamente fáceis de detectar. Como resultado, têm encontrado aplicações extensivas como marcadores moleculares de segunda geração em várias áreas de pesquisa genética, incluindo mapeamento genético, localização de genes-alvo, investigações sobre diversidade genética, identificação de recursos de germoplasma e melhoramento assistido por marcadores moleculares. Os SSRs são uma pedra angular na pesquisa genética, contribuindo significativamente para a construção de mapas genéticos e identificação de recursos.
Referência:
- Yang, Tiange, et al. "Uma Análise Abrangente do Genoma do Cloroplasto Fornece Novas Perspectivas sobre a Evolução do Género Chrysosplenium." Revista Internacional de Ciências Moleculares 24,19 (2023): 14735.