Modelos de Linguagem (LLMs)

Top-p (Nucleus Sampling)

Parâmetro que controla a diversidade da geração escolhendo entre os tokens mais prováveis até somar p.

Top-p, também chamado de nucleus sampling, é uma técnica de amostragem alternativa (ou complementar) à temperatura. Em vez de mexer na "intensidade" da aleatoriedade, top-p define um conjunto dinâmico de tokens elegíveis.

Como funciona: o modelo ordena os tokens possíveis por probabilidade e escolhe aleatoriamente entre os tokens cuja probabilidade cumulativa atinge p.

  • Top-p = 0.1: só considera tokens cuja soma de probabilidade chega a 10%. Muito conservador, escolha quase determinística.
  • Top-p = 0.5: considera tokens cobrindo 50% da massa de probabilidade.
  • Top-p = 0.9: padrão. Considera tokens que somam 90% — bom equilíbrio.
  • Top-p = 1.0: considera todos os tokens (sem filtro).

Vantagem sobre top-k (que sempre considera N tokens):

  • Em contextos onde a previsão é "certa" (ex: depois de "São", quase certeza vem "Paulo"), top-p restringe ao essencial.
  • Em contextos ambíguos (várias continuações plausíveis), top-p permite mais opções.
  • É adaptativo, top-k é fixo.

Top-p vs Temperatura:

  • Temperatura mexe no "shape" da distribuição (achata ou aguça).
  • Top-p corta a cauda longa de tokens improváveis.

Recomendação clássica: use um dos dois. Combinar pode dar resultados imprevisíveis.

Boas combinações na prática:

  • Determinístico: temp = 0 (top-p irrelevante).
  • Criatividade controlada: temp = 1.0, top-p = 0.9 (ou só top-p = 0.9 com temp default).
  • Brainstorming aberto: temp = 1.2, top-p = 0.95.

Para o profissional brasileiro:

  • Em APIs (OpenAI, Anthropic), normalmente você ajusta uma das duas.
  • Para a maioria dos casos práticos, deixar top-p no default (0.9 ou 1.0) e mexer só na temperatura é mais simples.
  • Em fine-tuning de modelos open source, alguns frameworks expõem ambos.

Outros parâmetros de amostragem que você pode encontrar:

  • Top-k: só considera os k tokens mais prováveis.
  • Min-p: descartar tokens com probabilidade abaixo de p × max_prob.
  • Typical-p: amostragem baseada em entropia.
  • Mirostat: controle adaptativo de perplexidade.

Para 99% dos usos no Brasil em 2026, você só precisa entender temperatura e saber que top-p existe. Se está fazendo geração crítica em produção, vale experimentar ambos e medir qualidade.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Top-p (Nucleus Sampling) no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →