Submissão de dados de sequência aos arquivos do NCBI
Sequenciação de próxima geração, Sequenciação SMRT da PacBioe Sequenciação por nanoporo, pode gerar numerosos dados de sequência numa única execução. Leituras brutas ou sequências montadas precisam ser submetidas a um repositório público de sequências (DDBJ/ENA/GenBank - INSDC), o que é exigido pela esmagadora maioria das revistas, uma vez que os números de acesso dessas sequências devem ser apresentados nos artigos publicados. O portal de submissão (https://submit.ncbi.nlm.nih.gov/) é uma interface programática para os utilizadores submeterem dados de sequência e descarregarem dados de sequência de outros. Além de dados de sequência bruta, também pode submeter sequências montadas computacionalmente, genomas, dados de genómica funcional, dados de microarray, dados clínicos, variações genómicas e outros tipos de dados, como dados de metilação PacBio. A submissão ao SRA, GEO, dbGap ou GenBank é considerada uma submissão aceitável. Neste artigo, iremos introduzir como submeter dados de sequência ao GenBank.
Submissão ao GenBank
O GenBank (https://submit.ncbi.nlm.nih.gov/subs/genbank/) aceita milhares de novas submissões de sequências por mês de investigadores de todo o mundo. As sequências frequentemente submetidas incluem sequências de mRNA com regiões codificantes, clusters de genes de RNA ribossómico, fragmentos de DNA genómico e um genoma completo viral ou de organela. Você pode submeter uma única sequência ou conjuntos de sequências. Se parte da sequência codifica uma proteína, uma característica de sequência codificante (CDS) e a tradução conceptual resultante devem ser anotadas. Cada sequência submetida recebe um número de acesso para os registos de sequência, geralmente dentro de dois dias úteis. Os submetentes e utilizadores podem visualizar cada sequência ou um conjunto de sequências que são classificadas com base na relação biológica. Cada conjunto está contido no Entrez PopSet (https://www.ncbi.nlm.nih.gov/popset/), permitindo que os investigadores visualizem a relação dentro do conjunto através de um alinhamento.
Pode submeter diretamente RNA ribossómico (rRNA), rRNA-ITS ou sequências de Influenza ao GenBank. Outros tipos de sequências devem ser submetidos com uma das ferramentas alternativas. Para leituras de sequência bruta não montadas, pode submetê-las ao Archive de Leituras de Sequência (SRA).
BankIt (https://www.ncbi.nlm.nih.gov/WebSub/?tool=genbank), uma ferramenta de submissão baseada na WWW, aceita todas as submissões padrão do GenBank, exceto: (i) sequências com um alinhamento (pode usar o Sequin), (ii) dados de leitura bruta (pode usar o Submission Portal-SRA), (iii) dados de montagem de transcritos em shotgun (pode usar o Submission-TSA) e dados de genoma (pode usar o Submission Portal-Genomes), e (iv) sequências de rRNA, rRNA-ITS ou Influenza (pode usar o Submission Portal).
Tbl2asn (https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/) é um programa de linha de comando que combina sequências de entrada e tabelas para produzir ficheiros apropriados para submissão ao GenBank. Os ficheiros de entrada incluem sequências em formato FASTA, informações sobre o organismo e anotação de características. As submissões feitas com o Tbl2asn devem ser enviadas para gb-sub@ncbi.nlm.nih.gov.
Sequin (https://www.ncbi.nlm.nih.gov/Sequin/) é uma aplicação autónoma que orienta os utilizadores através dos processos de submissão. O Sequin pode ser utilizado para submeter sequências ou pequenos genomas completos. Com esta ferramenta, a anotação e análise de sequências nucleotídicas podem ser realizadas. Se desejar opções gráficas de visualização e edição, como edição de alinhamentos, o Sequin é uma boa escolha. As submissões feitas com o Sequin devem ser enviadas para gb-sub@ncbi.nlm.nih.gov.
Ao submeter múltiplas sequências relacionadas, tanto o Tbl2asn como o Sequin podem aceitar a saída de pacotes populares de alinhamento de sequências, como PHYLIP, NEXUS e FASTA + GAP. Os alinhamentos contribuem para a anotação das sequências no conjunto.
Após a submissão
Após a submissão ao GenBank, a equipa de anotação do GenBank verificará os seguintes problemas:
(i) O comprimento da sequência e o tipo de molécula (tipo de molécula única ou uma mistura de mRNA e DNA genómico).
(ii) Validade biológica.
(iii) A sequência está livre de contaminação vetorial?
(iv) Se a sequência for publicada, pode ser adicionado um ID do PubMed ao registo de forma a que a sequência e a publicação possam ser ligadas.
(v) Formatação e ortografia.
Se houver algum problema, o anotador entrará em contacto com o remetente por email para correção.
CD Genomics tem uma equipa de profissionais de bioinformática que se ocupa do controlo de qualidade das leituras brutas, alinhamento de sequências, montagem de genomas, mineração de genomas e estudos genómicos comparativos. Se tiver alguma dúvida sobre o processamento de dados, não hesite em contactar-nos.