RLHF (Reinforcement Learning from Human Feedback) é a técnica que ensinou modelos a serem úteis, seguros e agradáveis — e não só "tecnicamente corretos". Foi o ingrediente secreto que transformou GPT-3 em ChatGPT.

Pipeline simplificado:

Pré-treino: modelo aprende prever próximo token em texto da web.
Instruction tuning: modelo aprende a seguir instruções básicas (supervised fine-tuning, SFT).
Reward Model: humanos comparam pares de respostas ("qual é melhor, A ou B?"). Treina-se um modelo que aprende a prever as preferências humanas.
RLHF (PPO): usando reinforcement learning, ajusta o LLM para maximizar o reward predito. O modelo aprende a gerar respostas que humanos prefeririam.

Resultado: respostas mais úteis, mais seguras, melhor formatadas, com tom adequado. Sem RLHF, modelos tendem a ser secos, evasivos ou desatentos.

Variantes modernas (mais simples e eficientes):

DPO (Direct Preference Optimization): pula o reward model, otimiza diretamente nas preferências. Mais simples e estável que PPO.
KTO (Kahneman-Tversky Optimization): usa só sinal de "boa" ou "ruim", sem comparações pareadas.
IPO, ORPO, SimPO: variantes mais recentes, cada uma com pequenas melhorias.
Constitutional AI (Anthropic): usa um conjunto de princípios para a IA criticar e melhorar suas próprias respostas (RLAIF — RL from AI Feedback).

Custos:

Coletar preferências humanas é caro: anotadores treinados, milhares de comparações.
Compute: PPO é instável e lento. DPO baixou esse custo dramaticamente.
Tempo: ciclos longos de coleta-treino-avaliação.

Empresas como Anthropic, OpenAI, Google têm equipes de centenas de pessoas dedicadas só a coletar, curar e refinar dados de RLHF. É onde mora o "molho secreto" — a arquitetura do modelo é parecida entre players, o que diferencia é a qualidade do alinhamento.

Para o profissional brasileiro:

Você não vai fazer RLHF do zero. Custa milhões.
Mas pode usar DPO leve em fine-tuning de Llama/Mistral para alinhar com preferências da sua marca.
E entender RLHF ajuda a explicar por que modelos como Claude são tão "agradáveis" e por que pequenos ajustes no prompt mudam tanto o tom.

Implicação ética: RLHF impõe valores. Quem decide o que é "boa resposta" nos dados de RLHF está moldando como o modelo se comporta em escala global. Por isso há debate sobre transparência e diversidade nos times que fazem alinhamento.

RLHF (Reinforcement Learning from Human Feedback)

Termos relacionados

Aprenda na prática