Top-p, também chamado de nucleus sampling, é uma técnica de amostragem alternativa (ou complementar) à temperatura. Em vez de mexer na "intensidade" da aleatoriedade, top-p define um conjunto dinâmico de tokens elegíveis.
Como funciona: o modelo ordena os tokens possíveis por probabilidade e escolhe aleatoriamente entre os tokens cuja probabilidade cumulativa atinge p.
- Top-p = 0.1: só considera tokens cuja soma de probabilidade chega a 10%. Muito conservador, escolha quase determinística.
- Top-p = 0.5: considera tokens cobrindo 50% da massa de probabilidade.
- Top-p = 0.9: padrão. Considera tokens que somam 90% — bom equilíbrio.
- Top-p = 1.0: considera todos os tokens (sem filtro).
Vantagem sobre top-k (que sempre considera N tokens):
- Em contextos onde a previsão é "certa" (ex: depois de "São", quase certeza vem "Paulo"), top-p restringe ao essencial.
- Em contextos ambíguos (várias continuações plausíveis), top-p permite mais opções.
- É adaptativo, top-k é fixo.
Top-p vs Temperatura:
- Temperatura mexe no "shape" da distribuição (achata ou aguça).
- Top-p corta a cauda longa de tokens improváveis.
Recomendação clássica: use um dos dois. Combinar pode dar resultados imprevisíveis.
Boas combinações na prática:
- Determinístico: temp = 0 (top-p irrelevante).
- Criatividade controlada: temp = 1.0, top-p = 0.9 (ou só top-p = 0.9 com temp default).
- Brainstorming aberto: temp = 1.2, top-p = 0.95.
Para o profissional brasileiro:
- Em APIs (OpenAI, Anthropic), normalmente você ajusta uma das duas.
- Para a maioria dos casos práticos, deixar top-p no default (0.9 ou 1.0) e mexer só na temperatura é mais simples.
- Em fine-tuning de modelos open source, alguns frameworks expõem ambos.
Outros parâmetros de amostragem que você pode encontrar:
- Top-k: só considera os k tokens mais prováveis.
- Min-p: descartar tokens com probabilidade abaixo de p × max_prob.
- Typical-p: amostragem baseada em entropia.
- Mirostat: controle adaptativo de perplexidade.
Para 99% dos usos no Brasil em 2026, você só precisa entender temperatura e saber que top-p existe. Se está fazendo geração crítica em produção, vale experimentar ambos e medir qualidade.
