Memória, em IA generativa, refere-se aos mecanismos que permitem ao agente reter informações ao longo do tempo — entre mensagens, conversas e sessões. LLMs por si só são stateless (não lembram), então memória é construída em volta deles.
Tipos de memória:
- Memória de curto prazo (working memory): a janela de contexto atual. Agente "lembra" de tudo que está nela.
- Memória de longo prazo (long-term): armazenamento externo (vector DB, banco de dados) acessado via retrieval.
- Memória episódica: lembranças de eventos/conversas específicas.
- Memória semântica: fatos sobre o usuário, mundo, preferências.
- Memória procedural: como fazer coisas (similar a habilidades).
Implementações:
- Conversa contínua na janela: simplesmente acumula mensagens. Funciona até janela encher.
- Sumarização: quando conversa fica longa, resume e mantém só o resumo.
- RAG sobre histórico: salva todas as mensagens em vector DB, busca relevantes a cada turn.
- Knowledge graph: extrai entidades e relações, atualiza grafo.
- Memória episódica explícita: agente decide o que vale guardar ("Maria mencionou que tem 2 filhos").
Frameworks/serviços:
- OpenAI Memory (ChatGPT): memória integrada para usuários Plus.
- MemGPT / Letta: pesquisa em memória persistente para agentes.
- Mem0: open source, popular em 2024-2026.
- Zep: memória estruturada para chatbots.
- LangChain Memory: várias estratégias prontas.
Casos de uso:
- Assistente pessoal: lembra preferências, histórico, contexto pessoal.
- Customer success: lembra cada interação com cliente, contexto de tickets antigos.
- Educação: tutor lembra o que aluno já estudou, dificuldades, progresso.
- Saúde: assistente médico com histórico do paciente.
- Vendas: SDR lembra cada conversa com lead.
Desafios:
- Privacidade: memória sobre usuário precisa de consentimento (LGPD).
- Esquecimento seletivo: usuário deve poder pedir para esquecer (direito ao esquecimento).
- Atualização vs contradição: novo fato contradiz antigo — qual prevalece?
- Custo: memória boa requer storage, embeddings, retrieval cada turn.
- Hallucination de memória: modelo "lembra" coisa que nunca aconteceu.
Boas práticas:
- Categorias claras: separar fatos do usuário, preferências, contexto da tarefa.
- Atualização explícita: agente confirma "lembrarei que X" para usuário ver.
- TTL (time to live): nem tudo precisa ser permanente.
- Retrieval seletivo: não traga tudo a cada turn, só o relevante.
- UI para ver/editar memória: usuário deve ter controle.
Para o profissional brasileiro:
- Construindo bot de SAC: memória é diferencial — cliente sente que é "lembrado".
- Atendendo LGPD: implemente APIs para usuário ver e deletar memória.
- Pra atendimento médico/jurídico: memória bem feita salva tempo enorme.
- Cuidado com hallucination: separe "memória" de "geração". Sempre baseado em retrieval real.
Em 2026, memória virou feature esperada em assistentes de IA sérios. ChatGPT tem, Claude (Projects) tem, Gemini tem. Construir memória robusta para seu produto é projeto não-trivial mas extremamente valioso. Diferença entre "chatbot esquecido" e "assistente que conhece você" é a memória.
