Modelos de Linguagem (LLMs)

Embedding

Representação numérica densa (vetor) de um texto, imagem ou conceito que captura seu significado.

Embedding é a tradução de algo (palavra, frase, parágrafo, imagem) em um vetor de números — tipicamente entre 384 e 4.096 dimensões — que representa o significado daquele conteúdo. Conceitos parecidos têm embeddings parecidos.

Exemplo intuitivo: se você embedda "rei" e "rainha", os vetores serão próximos. Se subtrair "homem" do "rei" e somar "mulher", você chega perto do vetor de "rainha". Essa é a famosa álgebra de embeddings.

Para que servem:

  • Busca semântica: encontrar documentos parecidos por significado, não só por palavra-chave. Você pergunta "como cancelar minha assinatura" e ele encontra um doc que diz "rescindir contrato".
  • RAG (Retrieval Augmented Generation): a base técnica para conectar LLMs com sua base de conhecimento privada.
  • Recomendação: produtos similares, posts relacionados.
  • Classificação e clustering: agrupar conteúdos parecidos.
  • Detecção de duplicatas e plágio.
  • Anti-fraude: identificar transações similares a padrões suspeitos.

Modelos de embedding populares em 2026:

  • OpenAI text-embedding-3 (small e large): boa relação custo/qualidade.
  • Cohere embed-multilingual: forte em português.
  • BAAI/bge-m3: open source, multilíngue.
  • Sentence-BERT (sBERT): open, leve, ótimo para começar.
  • Voyage AI: especializado, muito bom para domínios específicos.

Como usar no Brasil:

  1. Pegue seus documentos (FAQs, manuais, contratos).
  2. Quebre em pedaços (chunks de 200-500 tokens).
  3. Gere embeddings via API (OpenAI, Cohere) ou modelo local.
  4. Salve em vector database (pgvector, Pinecone, Qdrant, Weaviate).
  5. Na hora da consulta: embedde a pergunta e busque os chunks mais próximos.

O custo é baixo: embeddar 1 milhão de tokens custa centavos de dólar. Por isso embedding virou commodity em 2026 — toda startup brasileira séria de IA tem um pipeline de embeddings rodando para alimentar buscas, recomendações ou agentes RAG.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Embedding no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →