RAG (Retrieval Augmented Generation) é a técnica que combina um LLM com busca em base de conhecimento externa. Em vez de o modelo "alucinar" com base só no que aprendeu durante o treino, ele busca documentos relevantes em tempo real e usa esses documentos para gerar a resposta.
Pipeline básico:
1. Indexação (offline): você pega seus documentos (FAQs, manuais, contratos), quebra em chunks, gera embeddings de cada chunk e salva em vector database. 2. Consulta (runtime): a. Usuário pergunta algo. b. Você embedde a pergunta. c. Busca os chunks mais similares no vector DB. d. Monta um prompt: "Responda usando este contexto: [chunks]. Pergunta: [user]". e. Manda pro LLM e devolve a resposta.
Por que RAG é tão popular em 2026:
- Conhecimento atualizado: novos documentos entram no índice instantaneamente, sem re-treinar modelo.
- Reduz alucinação: modelo cita fontes, fica preso aos fatos.
- Privacidade: dados sensíveis ficam no seu vector DB, não vão pro treino.
- Auditável: você sabe exatamente quais documentos influenciaram cada resposta.
- Custo: muito mais barato que fine-tunar a cada update de conhecimento.
Casos de uso brasileiros:
- SAC com IA: chatbot que responde olhando manuais reais da empresa.
- Jurídico: assistente que busca em jurisprudência interna.
- Médico: triagem que consulta protocolos do hospital.
- Educação: tutores que respondem só com material do curso.
- Vendas: SDR que conhece o catálogo todo do produto.
Stack típica em 2026:
- Embeddings: OpenAI text-embedding-3, Cohere multilingual, BAAI bge-m3.
- Vector DB: pgvector (Postgres), Qdrant, Pinecone, Weaviate, Chroma.
- Orquestração: LangChain, LlamaIndex, ou código próprio em Python/TypeScript.
- LLM: GPT-5, Claude Sonnet 4, Llama 3.3.
- Reranking: Cohere Rerank, Voyage Rerank — refina os top-k.
Truques avançados:
- Hybrid search: combinar busca semântica (embeddings) com keyword (BM25).
- Query rewriting: reescrever a pergunta antes de buscar.
- Multi-step retrieval: agente que faz várias buscas refinando.
- Citations: forçar o modelo a citar fonte para cada afirmação.
- GraphRAG: indexar relações entre entidades, não só texto.
RAG é provavelmente a habilidade mais valiosa de IA para empresas brasileiras em 2026. Quem domina RAG bem feito constrói produtos diferenciados e útil de verdade.
