Perplexidade é a métrica clássica para avaliar modelos de linguagem. Mede o quanto o modelo "se surpreende" com cada token de um texto. Quanto menor a perplexidade, melhor o modelo previu o texto.

Tecnicamente, perplexidade é a exponencial da entropia cruzada média. Em termos práticos: se um modelo tem perplexidade 10 num texto, é como se ele tivesse hesitado entre 10 opções igualmente prováveis a cada token.

Por que importa:

Treinamento: minimizar perplexidade no dataset é o objetivo do pré-treinamento.
Comparação de modelos: dois modelos no mesmo conjunto de teste — o de menor perplexidade prevê melhor.
Detecção de domínio: se um modelo tem perplexidade muito alta num texto, esse domínio é fora da distribuição de treino.
Detecção de texto gerado: perplexidade muito baixa pode indicar texto gerado por IA (modelos têm padrões previsíveis).

Faixas típicas:

Modelo bem treinado em texto comum: perplexidade 5-30.
Modelo num domínio difícil ou raro: 100+.
Modelo aleatório: perplexidade próxima ao tamanho do vocabulário (dezenas de milhares).

Limitações importantes:

Não captura qualidade humana: um modelo pode ter perplexidade baixa e ainda gerar texto chato, factualmente errado, ou inadequado.
Não captura raciocínio: prevê próximo token, não testa lógica.
Por isso surgiram outras métricas: BLEU, ROUGE, BERTScore, e benchmarks como MMLU, HumanEval, MT-Bench.

Para o profissional brasileiro, perplexidade não é algo que você usa no dia a dia se está consumindo LLMs via API. Mas aparece em:

Papers e blogs técnicos: comparam modelos por perplexidade.
Fine-tuning: você monitora perplexidade do modelo em validação para detectar overfitting.
Detecção de IA generativa: ferramentas como GPTZero usam variação de perplexidade.

Em 2026, com modelos tão bons, perplexidade se tornou métrica menos relevante para distinguir top performers. O que importa hoje é benchmark em tarefas reais (raciocínio, código, instrução, segurança) e avaliação humana.

Curiosidade: a perplexidade do GPT-3 em texto da web era de cerca de 20. Modelos atuais (GPT-5, Claude Sonnet 4) ficam abaixo de 10. Estamos chegando perto do limite teórico (que é determinado pela entropia inerente da linguagem humana).

Perplexidade

Termos relacionados

Aprenda na prática