Janela de contexto (context window) é o limite total de tokens que um modelo aceita em uma chamada. É como a "memória de curto prazo" do modelo durante uma interação.

Em 2026, as janelas explodiram em tamanho:

Claude Sonnet 4: 200k tokens (cerca de 500 páginas A4).
GPT-5: 256k+ tokens.
Gemini 2 Pro: 1 milhão de tokens, com modos de até 2 milhões.
Llama 3.3 70B: 128k tokens.

Isso é uma revolução prática. Em 2022, GPT-3 tinha 4k de contexto — mal cabia uma conversa decente. Hoje você pode jogar relatórios anuais inteiros, repositórios de código completos, ou anos de e-mails de uma vez.

Mas atenção:

A janela inclui entrada e saída: se você tem 200k de contexto e mandou 195k, sobram só 5k para a resposta.
Preço sobe linearmente com input (e às vezes mais para output).
Performance degrada em janelas muito longas: o famoso "lost in the middle". Modelos atendem melhor ao começo e ao fim.
Latência cresce: prompts grandes demoram segundos a minutos para serem processados.

Casos de uso práticos para janelas grandes:

Análise de contratos: jogar o contrato inteiro e fazer perguntas.
Code review: passar arquivos completos do projeto.
Síntese de pesquisa: colocar 20 papers e pedir resumo crítico.
Apoio jurídico: jurisprudência completa + caso específico.
Atendimento de SAC: histórico completo do cliente + nova reclamação.

Para o profissional brasileiro, janelas grandes mudam o jogo: tarefas que antes precisavam de RAG sofisticado agora cabem inteiras no prompt. Para muitas empresas pequenas e médias, vale mais pagar por contexto longo do que montar pipeline de embeddings.

Mas para empresas com bases de conhecimento gigantes (milhões de documentos), RAG continua essencial — você não cabe a Wikipedia inteira em 1 milhão de tokens, e mesmo se coubesse, seria caro a cada chamada.

Janela de Contexto

Termos relacionados

Aprenda na prática