Alucinação é quando o LLM gera informação que parece correta, é dita com confiança, mas é simplesmente falsa. O modelo "inventa" um livro que não existe, cita uma jurisprudência fictícia, atribui uma frase a um autor errado.
Por que acontece: LLMs não são bancos de dados. São máquinas que prevêem o próximo token mais provável dado o contexto. Quando perguntado algo que não está bem representado nos dados de treino, o modelo gera algo que "soa certo" estatisticamente — mesmo que seja factualmente errado.
Exemplos famosos:
- Advogados americanos foram multados em 2023 por entregar petições com jurisprudências inventadas pelo ChatGPT.
- Bing/Copilot atribuiu citações falsas a artigos reais.
- LLMs inventam DOIs de papers acadêmicos, ISBNs de livros, CPFs.
Tipos de alucinação:
- Factual: "Pelé nasceu em 1942" (nasceu em 1940).
- Citacional: inventa fontes, autores, datas.
- Lógica: raciocínio aparentemente válido mas com erro silencioso.
- Contextual: ignora ou contradiz contexto fornecido no próprio prompt.
- Fabricação de capacidades: "claro, posso enviar e-mail por você" — mas não pode.
Como reduzir alucinação:
- RAG: dar ao modelo documentos reais para basear resposta.
- Citações forçadas: pedir para citar fonte de cada afirmação.
- Temperatura baixa: menos aleatoriedade.
- Modelos com raciocínio (o1, Claude com thinking): eles verificam mais.
- Self-verification: pedir que o modelo critique a própria resposta.
- Tools: para fatos, deixar o modelo consultar a internet ou banco de dados em vez de "lembrar".
- Prompting: "Se não souber, diga 'não sei'. Não invente."
- Validação humana: para domínios críticos, sempre revisar.
Para o profissional brasileiro:
- Jurídico: NUNCA confie em jurisprudência citada por LLM sem checar no JusBrasil ou STF.
- Financeiro: confirme números, datas, valores em fontes primárias.
- Médico: LLM não substitui consulta a base curada (UpToDate, Medscape).
- Marketing: LLM pode inventar dados de mercado — sempre validar.
Em 2026, alucinação reduziu muito (modelos novos como Claude Sonnet 4 são bem mais cautelosos), mas não desapareceu. A regra é: para qualquer afirmação factual crítica, valide.
Boa notícia: existem startups (incluindo brasileiras) construindo "factuality layers" — camadas de verificação automática em cima de LLMs, para detecção e correção de alucinação. É um mercado em rápida expansão.
