Token é a menor unidade que um modelo de linguagem manipula. Quando você manda "Olá, tudo bem?" para o ChatGPT, esse texto é primeiro quebrado em tokens — algo como ["Olá", ",", " tudo", " bem", "?"]. Depois cada token vira um número, o modelo faz contas, e gera tokens de resposta um a um.
Em português, a regra prática é:
- Cerca de 1 token a cada 3-4 caracteres (mais ou menos meia palavra).
- 1.000 tokens ≈ 750 palavras em português ≈ 2 páginas A4.
- "Inteligência artificial" pode virar 4-6 tokens dependendo do tokenizador.
Cada modelo tem seu próprio tokenizador:
- GPT (OpenAI): usa BPE (Byte-Pair Encoding) com vocabulário de ~100k tokens.
- Claude (Anthropic): tokenizador próprio, otimizado para vários idiomas.
- Llama (Meta): SentencePiece, vocabulário menor.
Por que isso importa para você no Brasil?
- Custo: APIs cobram por token (entrada e saída). 1 milhão de tokens de entrada no Claude Sonnet 4 custa cerca de US$ 3.
- Limites: a janela de contexto é medida em tokens (Claude Sonnet 4: 200k tokens, GPT-5: 256k+).
- Português é menos eficiente: o mesmo texto em inglês usa menos tokens que em português, porque os tokenizadores foram otimizados majoritariamente para inglês. Custa mais por palavra.
Como otimizar:
- Seja conciso nos prompts (mas não a ponto de perder contexto).
- Para textos longos, considere modelos com janela grande de contexto.
- Use sumarização para inputs muito longos.
- Cache prompts repetidos (Anthropic e OpenAI oferecem caching de contexto, com desconto).
No dia a dia, você não precisa pensar em tokens, mas saber que existem ajuda a entender por que sua conta da OpenAI veio cara: muito provavelmente alguém colou um PDF de 100 páginas no prompt sem perceber que isso são 30 mil tokens cada chamada.
