Janela de contexto (context window) é o limite total de tokens que um modelo aceita em uma chamada. É como a "memória de curto prazo" do modelo durante uma interação.
Em 2026, as janelas explodiram em tamanho:
- Claude Sonnet 4: 200k tokens (cerca de 500 páginas A4).
- GPT-5: 256k+ tokens.
- Gemini 2 Pro: 1 milhão de tokens, com modos de até 2 milhões.
- Llama 3.3 70B: 128k tokens.
Isso é uma revolução prática. Em 2022, GPT-3 tinha 4k de contexto — mal cabia uma conversa decente. Hoje você pode jogar relatórios anuais inteiros, repositórios de código completos, ou anos de e-mails de uma vez.
Mas atenção:
- A janela inclui entrada e saída: se você tem 200k de contexto e mandou 195k, sobram só 5k para a resposta.
- Preço sobe linearmente com input (e às vezes mais para output).
- Performance degrada em janelas muito longas: o famoso "lost in the middle". Modelos atendem melhor ao começo e ao fim.
- Latência cresce: prompts grandes demoram segundos a minutos para serem processados.
Casos de uso práticos para janelas grandes:
- Análise de contratos: jogar o contrato inteiro e fazer perguntas.
- Code review: passar arquivos completos do projeto.
- Síntese de pesquisa: colocar 20 papers e pedir resumo crítico.
- Apoio jurídico: jurisprudência completa + caso específico.
- Atendimento de SAC: histórico completo do cliente + nova reclamação.
Para o profissional brasileiro, janelas grandes mudam o jogo: tarefas que antes precisavam de RAG sofisticado agora cabem inteiras no prompt. Para muitas empresas pequenas e médias, vale mais pagar por contexto longo do que montar pipeline de embeddings.
Mas para empresas com bases de conhecimento gigantes (milhões de documentos), RAG continua essencial — você não cabe a Wikipedia inteira em 1 milhão de tokens, e mesmo se coubesse, seria caro a cada chamada.
