Modelos de Linguagem (LLMs)

RAG (Retrieval Augmented Generation)

Técnica que conecta um LLM a uma base de conhecimento externa para gerar respostas com fatos atualizados.

RAG (Retrieval Augmented Generation) é a técnica que combina um LLM com busca em base de conhecimento externa. Em vez de o modelo "alucinar" com base só no que aprendeu durante o treino, ele busca documentos relevantes em tempo real e usa esses documentos para gerar a resposta.

Pipeline básico:

1. Indexação (offline): você pega seus documentos (FAQs, manuais, contratos), quebra em chunks, gera embeddings de cada chunk e salva em vector database. 2. Consulta (runtime): a. Usuário pergunta algo. b. Você embedde a pergunta. c. Busca os chunks mais similares no vector DB. d. Monta um prompt: "Responda usando este contexto: [chunks]. Pergunta: [user]". e. Manda pro LLM e devolve a resposta.

Por que RAG é tão popular em 2026:

  • Conhecimento atualizado: novos documentos entram no índice instantaneamente, sem re-treinar modelo.
  • Reduz alucinação: modelo cita fontes, fica preso aos fatos.
  • Privacidade: dados sensíveis ficam no seu vector DB, não vão pro treino.
  • Auditável: você sabe exatamente quais documentos influenciaram cada resposta.
  • Custo: muito mais barato que fine-tunar a cada update de conhecimento.

Casos de uso brasileiros:

  • SAC com IA: chatbot que responde olhando manuais reais da empresa.
  • Jurídico: assistente que busca em jurisprudência interna.
  • Médico: triagem que consulta protocolos do hospital.
  • Educação: tutores que respondem só com material do curso.
  • Vendas: SDR que conhece o catálogo todo do produto.

Stack típica em 2026:

  • Embeddings: OpenAI text-embedding-3, Cohere multilingual, BAAI bge-m3.
  • Vector DB: pgvector (Postgres), Qdrant, Pinecone, Weaviate, Chroma.
  • Orquestração: LangChain, LlamaIndex, ou código próprio em Python/TypeScript.
  • LLM: GPT-5, Claude Sonnet 4, Llama 3.3.
  • Reranking: Cohere Rerank, Voyage Rerank — refina os top-k.

Truques avançados:

  • Hybrid search: combinar busca semântica (embeddings) com keyword (BM25).
  • Query rewriting: reescrever a pergunta antes de buscar.
  • Multi-step retrieval: agente que faz várias buscas refinando.
  • Citations: forçar o modelo a citar fonte para cada afirmação.
  • GraphRAG: indexar relações entre entidades, não só texto.

RAG é provavelmente a habilidade mais valiosa de IA para empresas brasileiras em 2026. Quem domina RAG bem feito constrói produtos diferenciados e útil de verdade.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam RAG (Retrieval Augmented Generation) no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →