Temperatura é o controle de criatividade do LLM. É um número (geralmente entre 0 e 2) que define o quanto o modelo deve "experimentar" ao escolher o próximo token.

Como funciona internamente: o modelo prevê probabilidades para cada token possível. Temperatura ajusta essa distribuição:

Temperatura 0: sempre escolhe o token mais provável. Determinístico (quase). Mesma entrada → mesma saída.
Temperatura 0.3-0.7: leve aleatoriedade. Boa para tarefas onde quer variação controlada.
Temperatura 1.0: distribuição original do modelo. Criativo mas coerente.
Temperatura 1.5-2.0: muito aleatório. Pode ficar incoerente, alucinar mais.

Quando usar cada faixa:

0 a 0.2: extração de informação, classificação, código, respostas factuais. Você quer reproducibilidade.
0.3 a 0.7: assistente de SAC, sumarização, redação técnica. Coerente mas com leve variação humana.
0.7 a 1.0: brainstorming, criação de conteúdo, marketing criativo. Quer ideias diversas.
Acima de 1.0: arte experimental, poesia, exploração. Cuidado com incoerência.

Comparação prática: peça 5x para gerar um título de e-mail.

Temp 0: vai dar 5x o mesmo título.
Temp 0.7: 5 títulos diferentes mas todos no tema certo.
Temp 1.5: 5 títulos, alguns brilhantes, alguns sem nexo.

Parâmetros relacionados:

Top-p (nucleus sampling): outro controle, escolhe entre os tokens cuja probabilidade soma p (ex: 0.9 = top 90%).
Top-k: só considera os k tokens mais prováveis.
Frequency penalty / presence penalty: penaliza repetir tokens já usados.

Geralmente você usa temperatura OU top-p, não ambos. Anthropic recomenda usar um e deixar o outro no default.

Para o profissional brasileiro:

Fluxo de trabalho automatizado (extrair dados de notas fiscais): temp 0.
Geração de variações de texto para A/B testing: temp 0.8.
Resposta padronizada de SAC: temp 0.3.
Roteiro de vídeo viral: temp 0.9.

Em modelos novos com raciocínio interno (o1, Claude com thinking, Gemini Thinking), temperatura tem efeito menor — eles "convergem" durante o raciocínio. Para o output final, temperatura ainda importa.

Dica: comece em 0.7, ajuste conforme observa o output. Se está repetitivo, suba. Se está alucinando, abaixe.

Temperatura

Termos relacionados

Aprenda na prática