Embedding é a tradução de algo (palavra, frase, parágrafo, imagem) em um vetor de números — tipicamente entre 384 e 4.096 dimensões — que representa o significado daquele conteúdo. Conceitos parecidos têm embeddings parecidos.
Exemplo intuitivo: se você embedda "rei" e "rainha", os vetores serão próximos. Se subtrair "homem" do "rei" e somar "mulher", você chega perto do vetor de "rainha". Essa é a famosa álgebra de embeddings.
Para que servem:
- Busca semântica: encontrar documentos parecidos por significado, não só por palavra-chave. Você pergunta "como cancelar minha assinatura" e ele encontra um doc que diz "rescindir contrato".
- RAG (Retrieval Augmented Generation): a base técnica para conectar LLMs com sua base de conhecimento privada.
- Recomendação: produtos similares, posts relacionados.
- Classificação e clustering: agrupar conteúdos parecidos.
- Detecção de duplicatas e plágio.
- Anti-fraude: identificar transações similares a padrões suspeitos.
Modelos de embedding populares em 2026:
- OpenAI text-embedding-3 (small e large): boa relação custo/qualidade.
- Cohere embed-multilingual: forte em português.
- BAAI/bge-m3: open source, multilíngue.
- Sentence-BERT (sBERT): open, leve, ótimo para começar.
- Voyage AI: especializado, muito bom para domínios específicos.
Como usar no Brasil:
- Pegue seus documentos (FAQs, manuais, contratos).
- Quebre em pedaços (chunks de 200-500 tokens).
- Gere embeddings via API (OpenAI, Cohere) ou modelo local.
- Salve em vector database (pgvector, Pinecone, Qdrant, Weaviate).
- Na hora da consulta: embedde a pergunta e busque os chunks mais próximos.
O custo é baixo: embeddar 1 milhão de tokens custa centavos de dólar. Por isso embedding virou commodity em 2026 — toda startup brasileira séria de IA tem um pipeline de embeddings rodando para alimentar buscas, recomendações ou agentes RAG.
