Contexto, no mundo dos LLMs, é todo conteúdo que o modelo enxerga ao gerar uma resposta. Isso inclui:

System prompt: instruções de persona e regras (se houver).
Histórico da conversa: mensagens anteriores naquela conversa.
Mensagem atual do usuário.
Documentos anexados: PDFs, imagens, arquivos colados.
Resultados de tool use: respostas de APIs e funções chamadas pelo modelo.

Tudo isso é concatenado e enviado ao modelo a cada chamada. O modelo não tem memória persistente — cada chamada é stateless.

A qualidade da resposta depende crucialmente do contexto:

Contexto pobre ("me ajude com vendas") → resposta genérica, inútil.
Contexto rico (objetivo, público, tom, exemplos, restrições) → resposta sob medida.

Em 2026, com janelas gigantes (200k+ tokens em Claude Sonnet 4, 256k+ em GPT-5), você consegue colocar contextos enormes — relatórios inteiros, base de código, manuais. Isso muda a forma de trabalhar:

Antes: você fazia muitos pedidos pequenos.
Agora: você joga o contexto todo de uma vez e faz perguntas refinadas em sequência.

Cuidados com contexto:

Lost in the middle: informação no meio de prompts longos é menos atendida que início ou fim.
Custo: cada token cobra. Contexto de 100k tokens = US$ 0.30 por chamada no Claude Sonnet 4.
Latência: prompts longos demoram mais para processar.
Vazamento: cuidado com dados sensíveis no contexto.

Estratégias para gerenciar contexto:

RAG: buscar só os trechos relevantes em vez de jogar tudo.
Sumarização: condensar conversas longas.
Caching: APIs cobram menos por contexto repetido (Anthropic dá 90% de desconto).
Chunking: dividir tarefas grandes em chamadas menores.

Para o profissional brasileiro: domine o uso de contexto e suas chamadas de IA viram 10x mais úteis. É a diferença entre "IA que dá respostas óbvias" e "IA que parece um consultor sênior".

Contexto

Termos relacionados

Aprenda na prática