Modelos de Linguagem (LLMs)

Token

Unidade básica de texto que um LLM processa — pode ser uma palavra, parte dela ou um símbolo.

Token é a menor unidade que um modelo de linguagem manipula. Quando você manda "Olá, tudo bem?" para o ChatGPT, esse texto é primeiro quebrado em tokens — algo como ["Olá", ",", " tudo", " bem", "?"]. Depois cada token vira um número, o modelo faz contas, e gera tokens de resposta um a um.

Em português, a regra prática é:

  • Cerca de 1 token a cada 3-4 caracteres (mais ou menos meia palavra).
  • 1.000 tokens ≈ 750 palavras em português ≈ 2 páginas A4.
  • "Inteligência artificial" pode virar 4-6 tokens dependendo do tokenizador.

Cada modelo tem seu próprio tokenizador:

  • GPT (OpenAI): usa BPE (Byte-Pair Encoding) com vocabulário de ~100k tokens.
  • Claude (Anthropic): tokenizador próprio, otimizado para vários idiomas.
  • Llama (Meta): SentencePiece, vocabulário menor.

Por que isso importa para você no Brasil?

  • Custo: APIs cobram por token (entrada e saída). 1 milhão de tokens de entrada no Claude Sonnet 4 custa cerca de US$ 3.
  • Limites: a janela de contexto é medida em tokens (Claude Sonnet 4: 200k tokens, GPT-5: 256k+).
  • Português é menos eficiente: o mesmo texto em inglês usa menos tokens que em português, porque os tokenizadores foram otimizados majoritariamente para inglês. Custa mais por palavra.

Como otimizar:

  • Seja conciso nos prompts (mas não a ponto de perder contexto).
  • Para textos longos, considere modelos com janela grande de contexto.
  • Use sumarização para inputs muito longos.
  • Cache prompts repetidos (Anthropic e OpenAI oferecem caching de contexto, com desconto).

No dia a dia, você não precisa pensar em tokens, mas saber que existem ajuda a entender por que sua conta da OpenAI veio cara: muito provavelmente alguém colou um PDF de 100 páginas no prompt sem perceber que isso são 30 mil tokens cada chamada.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Token no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →