Token é a menor unidade que um modelo de linguagem manipula. Quando você manda "Olá, tudo bem?" para o ChatGPT, esse texto é primeiro quebrado em tokens — algo como ["Olá", ",", " tudo", " bem", "?"]. Depois cada token vira um número, o modelo faz contas, e gera tokens de resposta um a um.

Em português, a regra prática é:

Cerca de 1 token a cada 3-4 caracteres (mais ou menos meia palavra).
1.000 tokens ≈ 750 palavras em português ≈ 2 páginas A4.
"Inteligência artificial" pode virar 4-6 tokens dependendo do tokenizador.

Cada modelo tem seu próprio tokenizador:

GPT (OpenAI): usa BPE (Byte-Pair Encoding) com vocabulário de ~100k tokens.
Claude (Anthropic): tokenizador próprio, otimizado para vários idiomas.
Llama (Meta): SentencePiece, vocabulário menor.

Por que isso importa para você no Brasil?

Custo: APIs cobram por token (entrada e saída). 1 milhão de tokens de entrada no Claude Sonnet 4 custa cerca de US$ 3.
Limites: a janela de contexto é medida em tokens (Claude Sonnet 4: 200k tokens, GPT-5: 256k+).
Português é menos eficiente: o mesmo texto em inglês usa menos tokens que em português, porque os tokenizadores foram otimizados majoritariamente para inglês. Custa mais por palavra.

Como otimizar:

Seja conciso nos prompts (mas não a ponto de perder contexto).
Para textos longos, considere modelos com janela grande de contexto.
Use sumarização para inputs muito longos.
Cache prompts repetidos (Anthropic e OpenAI oferecem caching de contexto, com desconto).

No dia a dia, você não precisa pensar em tokens, mas saber que existem ajuda a entender por que sua conta da OpenAI veio cara: muito provavelmente alguém colou um PDF de 100 páginas no prompt sem perceber que isso são 30 mil tokens cada chamada.

Token

Termos relacionados

Aprenda na prática