Temperatura é o controle de criatividade do LLM. É um número (geralmente entre 0 e 2) que define o quanto o modelo deve "experimentar" ao escolher o próximo token.
Como funciona internamente: o modelo prevê probabilidades para cada token possível. Temperatura ajusta essa distribuição:
- Temperatura 0: sempre escolhe o token mais provável. Determinístico (quase). Mesma entrada → mesma saída.
- Temperatura 0.3-0.7: leve aleatoriedade. Boa para tarefas onde quer variação controlada.
- Temperatura 1.0: distribuição original do modelo. Criativo mas coerente.
- Temperatura 1.5-2.0: muito aleatório. Pode ficar incoerente, alucinar mais.
Quando usar cada faixa:
- 0 a 0.2: extração de informação, classificação, código, respostas factuais. Você quer reproducibilidade.
- 0.3 a 0.7: assistente de SAC, sumarização, redação técnica. Coerente mas com leve variação humana.
- 0.7 a 1.0: brainstorming, criação de conteúdo, marketing criativo. Quer ideias diversas.
- Acima de 1.0: arte experimental, poesia, exploração. Cuidado com incoerência.
Comparação prática: peça 5x para gerar um título de e-mail.
- Temp 0: vai dar 5x o mesmo título.
- Temp 0.7: 5 títulos diferentes mas todos no tema certo.
- Temp 1.5: 5 títulos, alguns brilhantes, alguns sem nexo.
Parâmetros relacionados:
- Top-p (nucleus sampling): outro controle, escolhe entre os tokens cuja probabilidade soma p (ex: 0.9 = top 90%).
- Top-k: só considera os k tokens mais prováveis.
- Frequency penalty / presence penalty: penaliza repetir tokens já usados.
Geralmente você usa temperatura OU top-p, não ambos. Anthropic recomenda usar um e deixar o outro no default.
Para o profissional brasileiro:
- Fluxo de trabalho automatizado (extrair dados de notas fiscais): temp 0.
- Geração de variações de texto para A/B testing: temp 0.8.
- Resposta padronizada de SAC: temp 0.3.
- Roteiro de vídeo viral: temp 0.9.
Em modelos novos com raciocínio interno (o1, Claude com thinking, Gemini Thinking), temperatura tem efeito menor — eles "convergem" durante o raciocínio. Para o output final, temperatura ainda importa.
Dica: comece em 0.7, ajuste conforme observa o output. Se está repetitivo, suba. Se está alucinando, abaixe.
