Modelos de Linguagem (LLMs)

Temperatura

Parâmetro que controla a aleatoriedade da geração — baixa = determinístico, alta = criativo.

Temperatura é o controle de criatividade do LLM. É um número (geralmente entre 0 e 2) que define o quanto o modelo deve "experimentar" ao escolher o próximo token.

Como funciona internamente: o modelo prevê probabilidades para cada token possível. Temperatura ajusta essa distribuição:

  • Temperatura 0: sempre escolhe o token mais provável. Determinístico (quase). Mesma entrada → mesma saída.
  • Temperatura 0.3-0.7: leve aleatoriedade. Boa para tarefas onde quer variação controlada.
  • Temperatura 1.0: distribuição original do modelo. Criativo mas coerente.
  • Temperatura 1.5-2.0: muito aleatório. Pode ficar incoerente, alucinar mais.

Quando usar cada faixa:

  • 0 a 0.2: extração de informação, classificação, código, respostas factuais. Você quer reproducibilidade.
  • 0.3 a 0.7: assistente de SAC, sumarização, redação técnica. Coerente mas com leve variação humana.
  • 0.7 a 1.0: brainstorming, criação de conteúdo, marketing criativo. Quer ideias diversas.
  • Acima de 1.0: arte experimental, poesia, exploração. Cuidado com incoerência.

Comparação prática: peça 5x para gerar um título de e-mail.

  • Temp 0: vai dar 5x o mesmo título.
  • Temp 0.7: 5 títulos diferentes mas todos no tema certo.
  • Temp 1.5: 5 títulos, alguns brilhantes, alguns sem nexo.

Parâmetros relacionados:

  • Top-p (nucleus sampling): outro controle, escolhe entre os tokens cuja probabilidade soma p (ex: 0.9 = top 90%).
  • Top-k: só considera os k tokens mais prováveis.
  • Frequency penalty / presence penalty: penaliza repetir tokens já usados.

Geralmente você usa temperatura OU top-p, não ambos. Anthropic recomenda usar um e deixar o outro no default.

Para o profissional brasileiro:

  • Fluxo de trabalho automatizado (extrair dados de notas fiscais): temp 0.
  • Geração de variações de texto para A/B testing: temp 0.8.
  • Resposta padronizada de SAC: temp 0.3.
  • Roteiro de vídeo viral: temp 0.9.

Em modelos novos com raciocínio interno (o1, Claude com thinking, Gemini Thinking), temperatura tem efeito menor — eles "convergem" durante o raciocínio. Para o output final, temperatura ainda importa.

Dica: comece em 0.7, ajuste conforme observa o output. Se está repetitivo, suba. Se está alucinando, abaixe.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Temperatura no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →