Modelos de Linguagem (LLMs)

Perplexidade

Métrica que mede quão 'surpreso' o modelo fica com um texto — menor é melhor previsão.

Perplexidade é a métrica clássica para avaliar modelos de linguagem. Mede o quanto o modelo "se surpreende" com cada token de um texto. Quanto menor a perplexidade, melhor o modelo previu o texto.

Tecnicamente, perplexidade é a exponencial da entropia cruzada média. Em termos práticos: se um modelo tem perplexidade 10 num texto, é como se ele tivesse hesitado entre 10 opções igualmente prováveis a cada token.

Por que importa:

  • Treinamento: minimizar perplexidade no dataset é o objetivo do pré-treinamento.
  • Comparação de modelos: dois modelos no mesmo conjunto de teste — o de menor perplexidade prevê melhor.
  • Detecção de domínio: se um modelo tem perplexidade muito alta num texto, esse domínio é fora da distribuição de treino.
  • Detecção de texto gerado: perplexidade muito baixa pode indicar texto gerado por IA (modelos têm padrões previsíveis).

Faixas típicas:

  • Modelo bem treinado em texto comum: perplexidade 5-30.
  • Modelo num domínio difícil ou raro: 100+.
  • Modelo aleatório: perplexidade próxima ao tamanho do vocabulário (dezenas de milhares).

Limitações importantes:

  • Não captura qualidade humana: um modelo pode ter perplexidade baixa e ainda gerar texto chato, factualmente errado, ou inadequado.
  • Não captura raciocínio: prevê próximo token, não testa lógica.
  • Por isso surgiram outras métricas: BLEU, ROUGE, BERTScore, e benchmarks como MMLU, HumanEval, MT-Bench.

Para o profissional brasileiro, perplexidade não é algo que você usa no dia a dia se está consumindo LLMs via API. Mas aparece em:

  • Papers e blogs técnicos: comparam modelos por perplexidade.
  • Fine-tuning: você monitora perplexidade do modelo em validação para detectar overfitting.
  • Detecção de IA generativa: ferramentas como GPTZero usam variação de perplexidade.

Em 2026, com modelos tão bons, perplexidade se tornou métrica menos relevante para distinguir top performers. O que importa hoje é benchmark em tarefas reais (raciocínio, código, instrução, segurança) e avaliação humana.

Curiosidade: a perplexidade do GPT-3 em texto da web era de cerca de 20. Modelos atuais (GPT-5, Claude Sonnet 4) ficam abaixo de 10. Estamos chegando perto do limite teórico (que é determinado pela entropia inerente da linguagem humana).

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Perplexidade no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →