RLHF (Reinforcement Learning from Human Feedback) é a técnica que ensinou modelos a serem úteis, seguros e agradáveis — e não só "tecnicamente corretos". Foi o ingrediente secreto que transformou GPT-3 em ChatGPT.
Pipeline simplificado:
- Pré-treino: modelo aprende prever próximo token em texto da web.
- Instruction tuning: modelo aprende a seguir instruções básicas (supervised fine-tuning, SFT).
- Reward Model: humanos comparam pares de respostas ("qual é melhor, A ou B?"). Treina-se um modelo que aprende a prever as preferências humanas.
- RLHF (PPO): usando reinforcement learning, ajusta o LLM para maximizar o reward predito. O modelo aprende a gerar respostas que humanos prefeririam.
Resultado: respostas mais úteis, mais seguras, melhor formatadas, com tom adequado. Sem RLHF, modelos tendem a ser secos, evasivos ou desatentos.
Variantes modernas (mais simples e eficientes):
- DPO (Direct Preference Optimization): pula o reward model, otimiza diretamente nas preferências. Mais simples e estável que PPO.
- KTO (Kahneman-Tversky Optimization): usa só sinal de "boa" ou "ruim", sem comparações pareadas.
- IPO, ORPO, SimPO: variantes mais recentes, cada uma com pequenas melhorias.
- Constitutional AI (Anthropic): usa um conjunto de princípios para a IA criticar e melhorar suas próprias respostas (RLAIF — RL from AI Feedback).
Custos:
- Coletar preferências humanas é caro: anotadores treinados, milhares de comparações.
- Compute: PPO é instável e lento. DPO baixou esse custo dramaticamente.
- Tempo: ciclos longos de coleta-treino-avaliação.
Empresas como Anthropic, OpenAI, Google têm equipes de centenas de pessoas dedicadas só a coletar, curar e refinar dados de RLHF. É onde mora o "molho secreto" — a arquitetura do modelo é parecida entre players, o que diferencia é a qualidade do alinhamento.
Para o profissional brasileiro:
- Você não vai fazer RLHF do zero. Custa milhões.
- Mas pode usar DPO leve em fine-tuning de Llama/Mistral para alinhar com preferências da sua marca.
- E entender RLHF ajuda a explicar por que modelos como Claude são tão "agradáveis" e por que pequenos ajustes no prompt mudam tanto o tom.
Implicação ética: RLHF impõe valores. Quem decide o que é "boa resposta" nos dados de RLHF está moldando como o modelo se comporta em escala global. Por isso há debate sobre transparência e diversidade nos times que fazem alinhamento.
