Contexto, no mundo dos LLMs, é todo conteúdo que o modelo enxerga ao gerar uma resposta. Isso inclui:
- System prompt: instruções de persona e regras (se houver).
- Histórico da conversa: mensagens anteriores naquela conversa.
- Mensagem atual do usuário.
- Documentos anexados: PDFs, imagens, arquivos colados.
- Resultados de tool use: respostas de APIs e funções chamadas pelo modelo.
Tudo isso é concatenado e enviado ao modelo a cada chamada. O modelo não tem memória persistente — cada chamada é stateless.
A qualidade da resposta depende crucialmente do contexto:
- Contexto pobre ("me ajude com vendas") → resposta genérica, inútil.
- Contexto rico (objetivo, público, tom, exemplos, restrições) → resposta sob medida.
Em 2026, com janelas gigantes (200k+ tokens em Claude Sonnet 4, 256k+ em GPT-5), você consegue colocar contextos enormes — relatórios inteiros, base de código, manuais. Isso muda a forma de trabalhar:
- Antes: você fazia muitos pedidos pequenos.
- Agora: você joga o contexto todo de uma vez e faz perguntas refinadas em sequência.
Cuidados com contexto:
- Lost in the middle: informação no meio de prompts longos é menos atendida que início ou fim.
- Custo: cada token cobra. Contexto de 100k tokens = US$ 0.30 por chamada no Claude Sonnet 4.
- Latência: prompts longos demoram mais para processar.
- Vazamento: cuidado com dados sensíveis no contexto.
Estratégias para gerenciar contexto:
- RAG: buscar só os trechos relevantes em vez de jogar tudo.
- Sumarização: condensar conversas longas.
- Caching: APIs cobram menos por contexto repetido (Anthropic dá 90% de desconto).
- Chunking: dividir tarefas grandes em chamadas menores.
Para o profissional brasileiro: domine o uso de contexto e suas chamadas de IA viram 10x mais úteis. É a diferença entre "IA que dá respostas óbvias" e "IA que parece um consultor sênior".
