What is the difference between DNA barcoding and DNA metabarcoding?

DNA barcoding identifies a single species from a single specimen (one organism → one barcode → one species ID). DNA metabarcoding identifies many species simultaneously from a mixed sample (e.g., soil, water, feces) using high-throughput sequencing and the same barcode primers. Barcoding uses Sanger sequencing or low-pass NGS per specimen; metabarcoding uses deep NGS per sample.

How reliable is COI for species identification?

For vertebrates and most arthropods, COI correctly identifies >95% of species when a reference sequence exists in BOLD or GenBank. For cnidarians, some amphibians, and certain marine invertebrates with slow mitochondrial evolution, COI resolution is lower and supplementary markers are recommended.

Can DNA barcoding identify species from cooked or processed food?

Yes, with modifications. Standard COI barcoding recovers species identity from cooked, smoked, canned, and dried animal products using mini-barcode primer sets targeting 100–300 bp amplicons. DNA degradation from heat and processing limits amplicon length but does not prevent identification when short-target primers are used.

Why can't I use COI for plants?

Plant mitochondrial genes evolve too slowly for species-level discrimination. COI sequences differ by <1% between most plant species — insufficient for reliable identification. The rbcL + matK combination from the chloroplast genome is the plant barcoding standard.

What should I do if my barcode returns "no match" in BOLD?

A "no match" result — where the query sequence shares <98% identity with any reference — may indicate one of three things: (a) your specimen belongs to a species not yet represented in BOLD, and you may have discovered a new record or new species; (b) your sequence quality is poor (check for ambiguous base calls); or (c) your PCR amplified a non-target region (verify the expected amplicon size). Submit clean sequences to GenBank — they contribute to filling database gaps for your taxonomic group.

How many specimens can be barcoded in a single project?

There is no upper limit. Sanger barcoding is practical for tens to a few hundred specimens. For projects with hundreds to tens of thousands of specimens, NGS-based barcoding with dual-indexed 96-well plate PCR is the cost-effective approach, reducing per-specimen costs below $1.

Does CD Genomics provide DNA extraction from difficult samples?

Yes. We accept fresh tissue, museum specimens, processed food products, herbal powders, timber samples, swabs, and environmental samples. Extraction protocols are optimized for each matrix — silica-column extraction for fresh tissue, inhibitor-removal protocols for processed and plant-derived samples, and low-elution-volume extraction for trace samples.

How do I choose between Sanger and NGS for my barcoding project?

For fewer than 100 specimens and clean single-species samples, Sanger sequencing at $3–6 per specimen is the most economical choice. For more than 500 specimens, mixed-species samples, or samples where intra-specimen variation needs to be assessed, NGS barcoding provides lower per-specimen costs and higher information content. Between 100 and 500 specimens, the choice depends on turnaround time requirements and budget.

Serviços de Código de Barras de DNA para Identificação de Espécies: COI, rbcL, matK e Além

Q: What should I do if my barcode returns "no match" in BOLD?

A "no match" result — where the query sequence shares <98% identity with any reference — may indicate one of three things: (a) your specimen belongs to a species not yet represented in BOLD, and you may have discovered a new record or new species; (b) your sequence quality is poor (check for ambiguous base calls); or (c) your PCR amplified a non-target region (verify the expected amplicon size). Submit clean sequences to GenBank — they contribute to filling database gaps for your taxonomic group.

Q: How many specimens can be barcoded in a single project?

There is no upper limit. Sanger barcoding is practical for tens to a few hundred specimens. For projects with hundreds to tens of thousands of specimens, NGS-based barcoding with dual-indexed 96-well plate PCR is the cost-effective approach, reducing per-specimen costs below $1.

Q: Does CD Genomics provide DNA extraction from difficult samples?

Yes. We accept fresh tissue, museum specimens, processed food products, herbal powders, timber samples, swabs, and environmental samples. Extraction protocols are optimized for each matrix — silica-column extraction for fresh tissue, inhibitor-removal protocols for processed and plant-derived samples, and low-elution-volume extraction for trace samples.

Q: How do I choose between Sanger and NGS for my barcoding project?

For fewer than 100 specimens and clean single-species samples, Sanger sequencing at $3–6 per specimen is the most economical choice. For more than 500 specimens, mixed-species samples, or samples where intra-specimen variation needs to be assessed, NGS barcoding provides lower per-specimen costs and higher information content. Between 100 and 500 specimens, the choice depends on turnaround time requirements and budget.

Um oficial de alfândega intercepta uma remessa rotulada como "frutos do mar secos" — sem espécies listadas, sem licença CITES. Um laboratório de segurança alimentar encontra DNA de cavalo e porco em salsichas de "100% carne de vaca". Um biólogo de campo apanha uma borboleta que se parece com uma espécie conhecida, mas se comporta de forma diferente. Estes cenários partilham uma solução: o código de barras de DNA — identificação de espécies usando sequências genéticas curtas e padronizadas que diferem entre espécies, mas permanecem consistentes dentro delas.

Ao contrário do perfilamento de comunidades por amplicon, que pergunta "quais membros da comunidade estão presentes nesta amostra mista?", a marcação de DNA pergunta "que espécie é este espécime individual?" Funciona em alimentos processados, espécimes degradados de museus, estágios larvais e fragmentos de tecido onde a identificação visual é impossível. A CD Genomics fornece Serviços de Codificação de DNA abrangendo as quatro regiões de código de barras padronizadas (COI, rbcL, matK, ITS) com fluxos de trabalho baseados em Sanger e NGS para projetos que vão desde a identificação de um único espécime até inquéritos de biodiversidade com milhares de espécimes.

Este artigo é um guia prático para escolher o marcador de código de barras adequado, compreender o que cada marcador pode e não pode identificar, e selecionar a estratégia de sequenciação apropriada. Abordamos aplicações de código de barras para animais, plantas, fungos e personalizadas, e fornecemos uma estrutura de decisão para alinhar a sua questão de identificação ao instrumento molecular correto.

O que é a codificação de DNA?

A marcação de DNA é a identificação de espécies através da análise de um segmento curto e padronizado do genoma — tipicamente 400-800 pares de bases — que apresenta variação interespécies suficiente para discriminar entre táxons, mas com conservação intraespécies suficiente para agrupar membros da mesma espécie. O conceito foi formalizado por Paul Hebert na Universidade de Guelph em 2003, que propôs a subunidade I da citocromo c oxidase (COI) como o código de barras animal universal. A ideia era enganadoramente simples: sequenciar uma região gênica de cada espécie animal na Terra, e a identificação torna-se uma questão de comparar uma sequência desconhecida com uma biblioteca de referência.

A infraestrutura global de codificação de barras assenta em duas instituições. O Consórcio para o Código de Barras da Vida (CBOL), estabelecido em 2004, definiu os padrões técnicos. O Sistema de Dados do Código de Barras da Vida (BOLD), alojado na Universidade de Guelph, é a principal base de dados de referência, contendo mais de 11 milhões de sequências de códigos de barras de aproximadamente 500.000 espécies descritas. O consórcio Internacional do Código de Barras da Vida (iBOL) coordena iniciativas em larga escala, com o programa BIOSCAN a visar códigos de barras para 2 milhões de espécies.

Como a Codificação Difere da Profilagem Comunitária

Os investigadores que são novos na identificação baseada em ADN às vezes confundem a codificação de barras com a metabarcodificação de amplicons. Eles servem a propósitos diferentes. A caracterização da comunidade de amplicons sequencia um gene marcador (16S, ITS, 18S) a partir de um extrato de ADN misto para caracterizar a composição taxonómica de toda uma comunidade microbiana. A saída é uma tabela de abundância relativa — "A Amostra A contém 23% de Bacteroides, 15% de Prevotella e 8% de Faecalibacterium." A codificação de barras de ADN sequencia um gene marcador a partir de um único espécime para determinar a sua identidade de espécie — "Esta amostra é Panthera tigris altaica, o tigre da Amur." A distinção é importante porque os fluxos de trabalho de laboratório, as estratégias de sequenciação e as análises bioinformáticas diferem substancialmente. A caracterização da comunidade utiliza tipicamente NGS de alto rendimento com custos por amostra abaixo de 30 dólares; a codificação de barras utiliza frequentemente sequenciação Sanger a 3-6 dólares por espécime, mas a codificação de barras baseada em NGS em grande escala reduz o custo por espécime bem abaixo de um dólar para grandes projetos.

Para um quadro de decisão mais amplo sobre quando escolher o perfilamento de comunidades por amplicon em vez de outras abordagens de sequenciação, veja o nosso Hub de Serviços de Sequenciação de Amplicões.

DNA Barcoding Concept Overview — Four standard barcode markers comparison chart Figura 1: Visão Geral do Conceito de Código de Barras de DNA — Comparação lado a lado dos quatro marcadores de código de barras padrão (COI: mitocôndria animal, ~658 pb; rbcL+matK: cloroplasto de plantas, ~550+770 pb; ITS: rDNA fúngico, ~450-700 pb) mostrando a origem genómica, o tamanho do amplicão e os grupos de organismos-alvo. Apresentado como um gráfico de comparação horizontal limpo com regiões de marcadores codificadas por cores.

Codificação de Animais — O Padrão COI

A subunidade I da citocromo c oxidase (COI) é um gene mitocondrial que codifica uma subunidade central da cadeia de transporte de eletrões respiratória. Foi selecionado como o código de barras animal por várias razões práticas. Os genes mitocondriais estão presentes em centenas a milhares de cópias por célula, tornando a amplificação viável a partir de amostras de DNA degradado ou em traços. O COI evolui a uma taxa que proporciona resolução a nível de espécie na maioria dos filos animais — rápido o suficiente para separar espécies estreitamente relacionadas, mas lento o suficiente para que indivíduos conspecíficos se agrupem. Um fragmento de 658 bp na extremidade 5' do COI, amplificável com o par de primers universais LCO1490/HCO2198, é o padrão global.

O que o COI Pode e Não Pode Identificar

O COI identifica espécies com alta confiança em vertebrados, na maioria dos artrópodes, moluscos e muitos outros filos de invertebrados. Para grupos bem amostrados — aves (mais de 10.300 espécies no BOLD), peixes (mais de 18.000 espécies), Lepidoptera (mais de 120.000 espécies) — o COI resolve mais de 95% das espécies. Para estes grupos, uma sequência de COI de 658 bp comparada com a base de dados BOLD retorna uma identificação ao nível da espécie com uma pontuação de confiança baseada na similaridade da sequência e na distância do vizinho mais próximo.

As limitações do COI são específicas de grupos. Os cnidários (corais, águas-vivas, anémonas do mar) têm uma evolução do COI incomumente lenta, tornando a discriminação a nível de espécie pouco fiável — o 16S rRNA ou marcadores nucleares são preferidos para estes grupos. Alguns anfíbios mostram introgressão de COI entre espécies, e táxons híbridos podem resultar em correspondências ambíguas de código de barras. Organismos de águas profundas, que frequentemente exibem especiação críptica com divergência de COI subtil ou inexistente, podem requerer abordagens de múltiplos marcadores ou sequenciação do genoma mitocondrial completo. Para esponjas de água doce e certos grupos de anelídeos, a resolução do COI é, no melhor dos casos, a nível de gênero. Para grupos onde o COI falha, a estratégia de resgate padrão é: mudar para 16S rRNA para cnidários e esponjas; adicionar um marcador nuclear como RAG1 (vertebrados) ou EF-1α (artropodes) para complexos de espécies híbridas ou recentemente divergentes; ou sequenciar o genoma mitocondrial completo para táxons de águas profundas — a aproximadamente $150-300 por mitogenoma, isso fornece de 15 a 37 genes codificadores de proteínas em vez de um, muitas vezes resolvendo espécies onde o COI sozinho não consegue.

Aplicações: Desde a Forense da Vida Selvagem até à Segurança Alimentar

A codificação COI avançou bem além da taxonomia académica para a aplicação no mundo real. Os laboratórios forenses de vida selvagem utilizam o COI para identificar produtos animais traficados: barbatanas de tubarão nos mercados asiáticos, marfim de elefantes caçados, carne de caça apreendida em aeroportos, medicamentos tradicionais contendo espécies protegidas. Um estudo de 2024 que codificou 5.000 amostras de barbatanas de tubarão dos mercados de Hong Kong identificou barbatanas de 86 espécies — incluindo 21 espécies listadas na CITES — permitindo ações de aplicação da lei contra redes de comércio ilegal.

Na autenticação alimentar, a codificação COI é agora uma ferramenta de controlo de qualidade rotineira. Um inquérito europeu a 450 produtos de peixe comerciais descobriu que 30% estavam mal rotulados — espécies mais baratas substituídas por espécies premium ou espécies em perigo vendidas sob nomes genéricos. Um inquérito a 197 produtos de carne de caça na África do Sul revelou que 76% continham espécies não listadas no rótulo, incluindo girafa, zebra e antílope aquático em embalagens rotuladas como antílope. Para os fabricantes de alimentos que visam verificar a integridade da cadeia de abastecimento, a codificação COI oferece uma identificação de espécies rápida e legalmente defensável a um custo de aproximadamente 5 a 10 dólares por amostra.

Para inquéritos de biodiversidade de comunidades animais onde a identificação de espécimes individuais é necessária em vez da caracterização da comunidade — vouchering de espécimes de museu, catalogação de captura acidental de insetos a partir de armadilhas Malaise, ou inventário de macroinvertebrados de água doce para biomonitorização da qualidade da água — os processos de codificação de barras COI baseados em NGS processam milhares de espécimes por corrida através de PCR em placa de 96 poços e indexação, reduzindo os custos por espécime em uma ordem de magnitude em comparação com o sequenciamento Sanger.

COI Barcoding Application Landscape — Three-panel infographic Figura 2: Paisagem de Aplicação de Codificação COI — Infográfico de três painéis mostrando os principais domínios de aplicação da codificação COI: forense da vida selvagem (apreensão de barbatanas de tubarão, identificação de marfim), autenticação de alimentos (rotulagem incorreta de peixe, substituição de carne de caça) e inquéritos de biodiversidade (captura acessória em armadilhas Malaise, validação em museus). Cada painel inclui uma estatística de caso representativa e um fluxo de trabalho baseado em ícones desde a amostra até a identificação da espécie.

Codificação de Plantas — rbcL, matK e ITS2

O COI não funciona em plantas. Os genomas mitocondriais das plantas evoluem muito mais lentamente do que os genomas mitocondriais dos animais — o COI em plantas é essencialmente invariável ao nível das espécies, tornando-o inútil para a discriminação de espécies. A comunidade de código de barras de plantas, organizada através do Grupo de Trabalho de Plantas do CBOL, decidiu por uma abordagem de múltiplos locos: rbcL e matK como os códigos de barras principais, com ITS2 como um marcador suplementar para grupos onde o par principal não fornece resolução suficiente.

rbcL: Fácil de Amplificar, Amplo mas Superficial

A ribulose-1,5-bisfosfato carboxilase/oxigenase subunidade grande (rbcL) é um gene do cloroplasto que codifica a subunidade grande da RuBisCO, a enzima que fixa o dióxido de carbono durante a fotossíntese. O rbcL é o código de barras vegetal mais facilmente amplificado — existem primers universais para angiospermas, gimnospermas, fetos e musgos, e a taxa de sucesso da PCR em plantas terrestres ultrapassa os 95%. No entanto, o rbcL fornece uma resolução limitada ao nível das espécies, identificando corretamente apenas cerca de 70-75% das espécies vegetais quando utilizado isoladamente. O seu papel principal no quadro de codificação de barras vegetais é servir como uma espinha dorsal universal de alta recuperação que coloca um espécime desconhecido no género ou família corretos.

matK: Maior Resolução, Mais Difícil de Amplificar

A Maturase K (matK) é um gene do cloroplasto envolvido na splicing de intrões do grupo II. Evolui rapidamente — entre os genes codificadores de proteínas do cloroplasto de mais rápida evolução — e fornece resolução a nível de espécie para 85-90% das angiospérmicas quando utilizada em combinação com o rbcL. O trade-off é a dificuldade de amplificação. Existem primers universais para matK, mas apresentam taxas de sucesso mais baixas do que os primers de rbcL em toda a diversidade de plantas terrestres, particularmente em linhagens de angiospérmicas de divergência precoce e grupos não angiospérmicos. Para projetos rotineiros de codificação de plantas, a combinação de rbcL + matK atinge uma resolução a nível de espécie de 90-95% para grupos comuns de angiospérmicas: plantas cultivadas, espécies madeireiras, ervas medicinais e ornamentais floridas.

ITS2 como o Marcador Suplementar

Para grupos de plantas onde rbcL + matK ainda ficam aquém — notavelmente as orquídeas, que exibem simultaneamente alta diversidade de espécies, hibridação frequente e sequências de cloroplastos incomumente conservadas — o ITS2 fornece uma resolução adicional. O ITS2 discrimina aproximadamente 92% das espécies de plantas quando utilizado isoladamente em angiospermas, superando tanto o rbcL quanto o matK individualmente, mas a sua aplicação é complicada pela evolução concertada incompleta (múltiplas cópias de ITS dentro de um único indivíduo podem diferir) e pela ocasional presença de contaminação de ITS fúngico que compete pela amplificação. O consenso atual: usar rbcL + matK como a combinação principal de código de barras de plantas, suplementando com ITS2 quando a resolução a nível de espécie não é alcançada.

Aplicações: Análise de Madeira, Autenticação de Ervas e Genómica de Herbários

A Convenção sobre o Comércio Internacional de Espécies Ameaçadas de Extinção (CITES) lista mais de 600 espécies de madeira, no entanto, os laboratórios aduaneiros recebem toras, tábuas e folhas de madeira que são visualmente indistinguíveis. Um estudo de 2023 que utilizou código de barras em 200 remessas de madeira apreendidas em portos europeus, usando rbcL + matK, identificou 42% como espécies listadas na CITES enviadas sob declarações de espécies incorretas — informação que levou diretamente a apreensões e processos judiciais.

A autenticação de medicamentos à base de plantas enfrenta um problema paralelo. Material vegetal seco, em pó ou extraído não pode ser identificado por um botânico. Um inquérito de 2022 que utilizou código de barras em 120 produtos herbais comerciais na América do Norte descobriu que 27% continham espécies de plantas não listadas no rótulo, e 9% continham adulterantes tóxicos conhecidos. A combinação rbcL + matK identificou as espécies de plantas reais em 97% das amostras, incluindo casos em que a substituição parecia motivada economicamente (espécies mais baratas trocadas por espécies mais caras).

Para a genómica de herbários, a codificação de DNA de espécimes tipo — as plantas individuais que definem uma espécie — está a ligar a taxonomia linneana à filogenética molecular. Espécimes de herbário com até 200 anos de idade produzem fragmentos amplificáveis de rbcL e matK utilizando conjuntos de primers de mini-código que visam amplicões de 100-200 bp, permitindo a integração da taxonomia morfológica histórica com a moderna estrutura de identificação de espécies molecular.

Plant Multi-Locus Barcoding Decision Tree — Flowchart Figura 3: Árvore de Decisão de Multi-Locus Barcoding de Plantas — Um fluxograma que mostra a lógica de identificação sequencial: rbcL como a espinha dorsal universal de primeira passagem (95% de sucesso de amplificação, 70-75% de resolução de espécies) → matK como o marcador de alta resolução de segundo nível (85-90% de resolução combinada) → ITS2 como o marcador de resgate suplementar para grupos difíceis (orquídeas, híbridos). Cada nó anotado com a percentagem de resolução e taxa de exemplo.

Codificação Fúngica — ITS como o Código de Barras Fúngico Universal

Os fungos ocupam uma posição intermédia no panorama do barcoding. O ITS (o espaçador transcrito interno do operão do RNA ribossómico) foi adotado como o código de barras fúngico universal na reunião do Fungal Barcoding Consortium em 2011, em Amesterdão. Este método discrimina espécies entre Ascomycota, Basidiomycota e a maioria das linhagens fúngicas de divergência precoce, com uma resolução a nível de espécie que se aproxima dos 90% para grupos bem amostrados.

A marcação fúngica difere da caracterização de comunidades fúngicas principalmente na fonte do DNA e na estratégia de sequenciação. A caracterização de comunidades amplifica o ITS a partir de um extrato de DNA misto (solo, água, amostra clínica) e sequencia milhares de amplicões por amostra através de NGS para produzir um perfil de composição da comunidade. A marcação amplifica o ITS a partir de um único isolado fúngico, corpo de frutificação ou talo de líquen e sequencia o amplicão via Sanger (ou NGS de baixa cobertura) para produzir uma identificação limpa a nível de espécie adequada para depósito no GenBank ou BOLD.

Para projetos que abrangem tanto o perfil da comunidade como a identificação de isolados individuais — por exemplo, cultivar fungos a partir de amostras de solo e, em seguida, codificar as colónias que crescem — Sequenciação de Amplicões ITS e Fúngicos fornece o contexto a nível da comunidade, enquanto a codificação de colónias individuais confirma a identidade dos organismos cultivados. A CD Genomics apoia ambos os fluxos de trabalho com PCR ITS padronizado, sequenciação e classificação na base de dados UNITE.

Codificação de Barras Personalizada para Necessidades Especiais

Os quatro códigos de barras padrão — COI para animais, rbcL + matK para plantas, ITS para fungos — cobrem a maioria das aplicações de codificação. Mas uma fração significativa dos problemas de identificação de espécies no mundo real requer marcadores fora do painel padrão.

16S para Bactérias e Arqueias

A identificação de espécies bacterianas através do sequenciamento do gene 16S rRNA situa-se na interseção entre a codificação e a perfuração de comunidades. Quando um laboratório de microbiologia clínica ou alimentar isola uma única colónia bacteriana, e o objetivo é identificar a espécie — e não caracterizar a comunidade — o sequenciamento Sanger do gene completo de 1.500 bp é um fluxo de trabalho de codificação. Os primers padrão (27F/1492R) amplificam o gene completo, e a classificação contra SILVA ou GTDB fornece identificação a nível de espécie para a maioria das bactérias de relevância médica. A CD Genomics oferece Sequenciação de Amplicões 16S/18S/ITS abrangendo tanto o perfilamento de comunidades como os fluxos de trabalho de identificação de isolados.

18S para Protistas e Microorganismos Eucarióticos

Para os protistas — organismos eucariotos unicelulares que não são animais, plantas nem fungos — nenhum código de barras universal foi formalmente adotado. O sequenciamento do gene 18S rRNA da região V4 ou V9, classificado contra a base de dados PR2, é o código de barras de facto para a maioria dos grupos de protistas. O desafio é que o número de cópias de 18S varia em ordens de magnitude entre os linhagens eucariotas, e a resolução a nível de espécie é inconsistente. Para grupos bem estudados como diatomáceas, dinoflagelados e ciliados, o 18S identifica espécies de forma fiável. Para linhagens de protistas ambientais menos caracterizadas, a identificação para-se ao nível de gênero ou família.

Marcadores Específicos de Espécies

Quando um código de barras universal falha — porque o gene padrão não é variável o suficiente no grupo-alvo, ou porque espécies estreitamente relacionadas não podem ser distinguidas — um marcador específico de espécie ou de grupo é a solução. Exemplos incluem o espaçador transcrito interno 1 (ITS1) para discriminar espécies dentro do complexo de mosquitos Anopheles gambiae, o gene mitocondrial 16S rRNA para identificar espécies de tartarugas marinhas a partir de ovos confiscados, e a região D-loop mitocondrial para distinguir espécies de esturjão (Acipenseridae) para autenticação de caviar. O desenvolvimento de códigos de barras personalizados requer a identificação de uma região genómica com variação apropriada entre espécies e dentro da espécie, o design de primers que amplifiquem o grupo-alvo, a validação da especificidade em relação a espécimes de referência conhecidos, e a construção de uma base de dados de referência local se o grupo-alvo estiver sub-representado no BOLD ou GenBank.

Amostras de Espécies Mistas

A codificação de barras assume tipicamente que um espécime = uma espécie. Amostras de espécies mistas — um produto alimentar processado contendo múltiplas espécies animais, uma mistura de ervas com múltiplas espécies vegetais, uma amostra ambiental onde organismos-alvo coexistem com organismos não-alvo — requerem uma abordagem de metabarcoding. Aqui, o fluxo de trabalho do laboratório utiliza os mesmos primers de código de barras, mas substitui o sequenciamento Sanger por NGS. Cada código de barras de amplicon identifica a sua espécie fonte. A análise bioinformática muda de correspondência de sequência única para análise da composição da comunidade, mantendo a precisão taxonómica a nível de código de barras que os primers específicos de grupo proporcionam.

Para aplicações que requerem resolução a nível de espécies além do que os códigos de barras padrão oferecem, Sequenciação de Amplicões de Comprimento Total 16S/18S/ITS em plataformas PacBio ou Nanopore fornece sequências genéticas completas que fecham a lacuna de resolução para grupos taxonomicamente difíceis.

Fluxo de Trabalho: Amostra para Identificação de Espécies

Um projeto de código de barras de DNA segue um pipeline laboratorial e bioinformático padronizado, projetado para identificação de espécies em alta capacidade e reprodutível.

Passo 1: Preparação da Amostra e Extração de DNA

O material de partida determina a estratégia de extração. O tecido fresco (músculo, folha, micélio fúngico) produz ADN de alta qualidade com kits padrão de coluna de sílica. Amostras processadas (carne cozida, ervas secas, medicamentos em pó) requerem protocolos de ADN degradado com digestão prolongada de proteinase K. Amostras em traço (perna de inseto única, folículo piloso, fragmento de herbário com menos de 10 mg) necessitam de extração com baixo volume de eluído e podem beneficiar da amplificação do genoma completo.

A métrica crítica não é o rendimento de DNA, mas sim a amplificabilidade. Uma amostra que produz 5 ng de DNA amplificável é melhor do que uma amostra que produz 500 ng de DNA degradado. Para a codificação Sanger, 1-10 ng de DNA modelo por reação de PCR é tipicamente suficiente ao usar protocolos padrão de 35 ciclos. Para a codificação NGS, o mesmo DNA serve como modelo para PCR indexado em formato de 96 poços.

Passo 2: Amplificação por PCR e Verificação em Gel

Cada marcador de código de barras requer uma reação de PCR própria com o conjunto de primers apropriado. Para espécimes animais: COI (LCO1490/HCO2198, 658 bp). Para plantas: rbcL (rbcLaF/rbcLaR, ~550 bp) e matK (matK472F/matK1248R, ~770 bp, ou primers de mini-código de barras para ADN degradado). Para fungos: ITS (ITS1F/ITS4 para ITS completo, ou ITS1F/ITS2 para apenas ITS1).

O sucesso da PCR é verificado por eletroforese em gel — uma única banda clara no tamanho esperado indica amplificação bem-sucedida; a ausência de banda indica inibição, template insuficiente ou incompatibilidade de primers. Amplificações falhadas podem frequentemente ser recuperadas diluindo o extrato para reduzir inibidores, mudando para primers alternativos ou utilizando primers de mini-código de barras (100-300 bp) quando o DNA está degradado.

Passo 3: Estratégia de Sequenciação — Sanger ou NGS

A sequenciação de Sanger é a abordagem mais económica para a codificação de baixo a médio rendimento (dezenas a algumas centenas de espécimes) a um custo de 3 a 6 dólares por espécime, produzindo um consenso bidirecional a partir de um único produto de PCR limpo.

Para projetos que excedem 500 espécimes, a codificação baseada em NGS torna-se mais económica. Os espécimes são processados em placas de 96 poços com primers de índice duplo que amplificam simultaneamente o código de barras e anexam índices específicos da amostra. Os amplicons agrupados são sequenciados em plataformas Illumina (MiSeq ou NovaSeq), e o custo por espécime desce abaixo de 1 dólar para projetos com mais de 1.000 espécimes.

A codificação por NGS também detecta variação intragenómica — heteroplasmia em sequências mitocondriais ou cópias divergentes de ITS — que um único cromatograma Sanger oculta.

Passo 4: Bioinformática — BLAST, BOLD e Colocação Filogenética

O pipeline bioinformático mais simples para barcoding é uma pesquisa de similaridade de sequência. A sequência de código de barras da consulta é comparada com a base de dados BOLD (para COI), a coleção de nucleotídeos do GenBank ou uma base de dados de referência local personalizada utilizando BLASTn. A identificação de espécies baseia-se na melhor correspondência: se a sequência da consulta compartilhar >98% de identidade com uma sequência de referência de uma espécie conhecida, essa atribuição de espécie é reportada.

O motor BOLD ID fornece uma saída mais estruturada do que o BLAST genérico. Reporta: (a) a correspondência mais próxima a nível de espécie com uma pontuação de similaridade; (b) a distância do vizinho mais próximo — a distância genética até a espécie mais relacionada no banco de dados, que indica se a identificação é ambígua; (c) um número de índice de código de barras (BIN) que agrupa sequências em unidades taxonómicas operacionais aproximadamente equivalentes a espécies; e (d) uma colocação baseada em árvore mostrando onde a sequência de consulta se situa no contexto filogenético mais amplo.

Para a codificação de plantas com rbcL + matK, os dois marcadores são analisados separadamente e em conjunto. Se ambos os marcadores atribuírem a mesma espécie, a confiança é alta. Atribuições discordantes desencadeiam análises adicionais — re-sequenciamento, suplementação de ITS2 ou revisão por especialistas. Para grupos onde a base de dados de referência é escassa, o posicionamento filogenético contra uma árvore de referência curada (por exemplo, a árvore de rbcL de plantas, a árvore de ITS de fungos) fornece atribuições do nível de gênero ao nível de família, mesmo quando correspondências ao nível de espécie estão ausentes.

DNA Barcoding Workflow — From Specimen to Species ID Figura 4: Fluxo de Trabalho de Código de Barras de DNA — Do Espécime à Identificação de Espécies. Um diagrama de pipeline horizontal mostrando quatro etapas: (1) Preparação da Amostra — ícones de tecido fresco, alimentos processados, espécimes em traço; (2) Amplificação por PCR — primers específicos de marcador com verificação em gel; (3) Sequenciação — Sanger ($3-6/espécime) ou NGS (<$1/espécime em grande escala) ramificação de caminho duplo; (4) Bioinformática — BLAST → Motor de ID BOLD → atribuição de espécies com pontuação de confiança.

Quando Escolher a Codificação por Barras em vez da Sequenciação do Genoma Completo

A codificação por barras e o sequenciamento completo do genoma abordam questões relacionadas, mas distintas, e escolher o método errado desperdiça dinheiro. A árvore de decisão é simples: se a única informação que precisa de cada espécime é a sua identidade de espécie, a codificação por barras é a ferramenta certa. Se precisar de tipagem a nível de estirpe, estrutura genética populacional, variação adaptativa ou conteúdo genómico funcional, o sequenciamento completo do genoma fornece essa informação — a um custo tipicamente 50 a 500 vezes superior por espécime.

A codificação por barras mantém vantagens decisivas em termos de rendimento, requisitos de qualidade do DNA e custo. Um prato de 96 poços de códigos de barras COI pode ser processado por aproximadamente 300-500 dólares via Sanger ou 100-200 dólares via NGS. O sequenciamento de genoma completo de baixa cobertura dos mesmos 96 espécimes, com cobertura de 5-10X, custaria entre 5.000 e 20.000 dólares, dependendo do tamanho do genoma. A codificação por barras também tolera DNA degradado que falharia na preparação da biblioteca de genoma completo — um mini-código de barras COI de 100 bp amplifica a partir de amostras onde o comprimento médio do fragmento de DNA é inferior a 500 bp.

Barcoding vs. Full Genome Sequencing — Comparison table Figura 5: Codificação de Barras vs. Sequenciamento de Genoma Completo — Uma tabela de comparação em duas colunas mostrando Codificação de Barras vs. WGS em sete dimensões: custo por espécime (3-6 $ vs. 50-200 $), requisito de qualidade do DNA (tolerante a degradação vs. alta integridade necessária), rendimento (milhares/semana vs. dezenas/semana), resolução (nível de espécie vs. nível de estirpe/população), bioinformática (BLAST/BOLD vs. montagem + anotação), informação funcional (nenhuma vs. genoma completo), e melhor aplicação (identificação de espécies vs. genómica evolutiva/populacional).

As situações em que a utilização de códigos de barras é insuficiente incluem: (a) distinguir linhagens ou subespécies dentro de uma espécie — os códigos de barras são invariantes dentro das espécies por design; (b) detectar hibridação — um único locus mitocondrial herdado da mãe lê apenas a linhagem materna; (c) identificar a origem geográfica — marcadores a nível populacional (SNPs, microssatélites) fornecem uma resolução filogeográfica que um código de barras não pode; e (d) previsão de características funcionais — um código de barras COI informa sobre a espécie, mas nada sobre as capacidades metabólicas relevantes para bioprospeção ou avaliação de patogenicidade.

Para projetos que exigem tanto a identificação de espécies como informações genómicas funcionais ou populacionais, Sequenciação de Shotgun Metagenómica e Sequenciação de Amplicões por Nanoporos representar caminhos alternativos, dependendo de se as suas amostras são comunidades mistas ou espécimes individuais.

CD Genomics Serviços de Sequenciação de Amplicons apoia todo o espectro de fluxos de trabalho de código de barras de DNA: identificação baseada em Sanger de COI, rbcL, matK e ITS; codificação de alto rendimento baseada em NGS em larga escala; desenvolvimento de marcadores personalizados; e codificação integrada + perfilagem de comunidades para projetos que abrangem ambos os modos de identificação. Desde um único espécime até um inquérito de biodiversidade de 10.000 espécimes, o fluxo de trabalho, preços e tempo de resposta são ajustados ao seu projeto.

Perguntas Frequentes

Qual é a diferença entre a codificação de barras de DNA e a metabarcodificação de DNA?

A codificação de DNA identifica uma única espécie a partir de um único espécime (um organismo → um código de barras → uma identificação de espécie). A metabarcodificação identifica muitas espécies simultaneamente a partir de uma amostra mista (por exemplo, solo, água, fezes) utilizando sequenciação de alto rendimento e os mesmos primers de código de barras. A codificação utiliza sequenciação Sanger ou NGS de baixo rendimento por espécime; a metabarcodificação utiliza NGS profundo por amostra.

Quão fiável é o COI para a identificação de espécies?

Para vertebrados e a maioria dos artrópodes, o COI identifica corretamente >95% das espécies quando existe uma sequência de referência no BOLD ou GenBank. Para cnidários, alguns anfíbios e certos invertebrados marinhos com evolução mitocondrial lenta, a resolução do COI é inferior e são recomendados marcadores suplementares.

A técnica de código de barras de DNA pode identificar espécies a partir de alimentos cozinhados ou processados?

Sim, com modificações. A codificação padrão de COI recupera a identidade das espécies a partir de produtos animais cozinhados, fumados, enlatados e desidratados, utilizando conjuntos de primers de mini-código de barras que visam amplicões de 100-300 bp. A degradação do DNA devido ao calor e ao processamento limita o comprimento do amplicão, mas não impede a identificação quando são utilizados primers de alvo curto.

Por que não posso usar COI para plantas?

Os genes mitocondriais das plantas evoluem demasiado lentamente para discriminação a nível de espécies. As sequências de COI diferem em <1% entre a maioria das espécies de plantas — insuficiente para uma identificação fiável. A combinação rbcL + matK do genoma do cloroplasto é o padrão de código de barras para plantas.

O que devo fazer se o meu código de barras retornar "sem correspondência" em NEGRITO?

Um resultado de "sem correspondência" — onde a sequência da consulta partilha <98% de identidade com qualquer referência — pode indicar uma de três coisas: (a) o seu espécime pertence a uma espécie ainda não representada no BOLD, e pode ter descoberto um novo registo ou nova espécie; (b) a qualidade da sua sequência é baixa (verifique se há chamadas de bases ambíguas); ou (c) a sua PCR amplificou uma região não-alvo (verifique o tamanho esperado do amplicon). Submeta sequências limpas ao GenBank — elas contribuem para preencher lacunas na base de dados para o seu grupo taxonómico.

Quantos espécimes podem ser codificados com código de barras num único projeto?

Não há limite superior. A marcação Sanger é prática para dezenas a algumas centenas de espécimes. Para projetos com centenas a dezenas de milhares de espécimes, a marcação baseada em NGS com PCR em placas de 96 poços com índices duplos é a abordagem mais económica, reduzindo os custos por espécime para menos de 1 dólar.

A CD Genomics fornece extração de DNA a partir de amostras difíceis?

Sim. Aceitamos tecido fresco, espécimes de museu, produtos alimentares processados, pós de ervas, amostras de madeira, swabs e amostras ambientais. Os protocolos de extração são otimizados para cada matriz — extração em coluna de sílica para tecido fresco, protocolos de remoção de inibidores para amostras processadas e de origem vegetal, e extração com baixo volume de eluído para amostras em traço.

Como devo escolher entre Sanger e NGS para o meu projeto de codificação?

Para menos de 100 espécimes e amostras limpas de uma única espécie, o sequenciamento Sanger a 3-6 dólares por espécime é a escolha mais económica. Para mais de 500 espécimes, amostras de espécies mistas ou amostras onde é necessário avaliar a variação intra-espécime, a marcação por NGS oferece custos por espécime mais baixos e maior conteúdo de informação. Entre 100 e 500 espécimes, a escolha depende dos requisitos de tempo de resposta e do orçamento.

Referências:

Hebert PDN, Cywinska A, Ball SL, deWaard JR. Identificações biológicas através de códigos de barras de DNA. Atas da Royal Society B. 2003;270(1512):313-321. doi:10.1098/rspb.2002.2218
Ratnasingham S, Hebert PDN. Um Registo Baseado em DNA para Todas as Espécies Animais: O Sistema de Número de Índice de Código de Barras (BIN). PLoS ONE. 2013;8(7):e66213. doi:10.1371/journal.pone.0066213
Grupo de Trabalho da CBOL sobre Plantas. Um código de barras de DNA para plantas terrestres. Atas da Academia Nacional de Ciências. 2009;106(31):12794-12797. doi:10.1073/pnas.0905845106
Schoch CL, Seifert KA, Huhndorf S, et al. Região do espaçador interno transcrito ribossómico nuclear (ITS) como um marcador de código de barras de DNA universal para Fungi. Actas da Academia Nacional de Ciências. 2012;109(16):6241-6246. doi:10.1073/pnas.1117018109
Porter TM, Hajibabaei M. Classificação automatizada de metabarcode CO1 de animais em alta capacidade. Scientific Reports. 2018;8:4223. doi:10.1038/s41598-018-22505-4
Hebert PDN, Hollingsworth PM, Hajibabaei M. Da escrita à leitura da enciclopédia da vida. Transações Filosóficas da Royal Society B. 2016;371:20150321. doi:10.1098/rstb.2015.0321
deWaard JR, Ratnasingham S, Zakharov EV, et al. Uma biblioteca de referência para invertebrados canadenses com 1,5 milhões de códigos de barras, espécimes de referência e amostras de DNA. Scientific Data. 2019;6:308. doi:10.1038/s41597-019-0320-2
Taberlet P, Coissac E, Pompanon F, et al. Poder e limitações do intrão trnL (UAA) do cloroplasto para a codificação de DNA de plantas. Pesquisa em Ácidos Nucleicos. 2007;35(3):e14. doi:10.1093/nar/gkl938

Apenas para fins de investigação, não destinado a diagnóstico clínico, tratamento ou avaliações de saúde individuais.

Serviços Relacionados

Apenas para fins de investigação, não se destina a diagnóstico clínico, tratamento ou avaliações de saúde individuais.