Instruction tuning é o processo de fine-tunar um modelo base (que só sabe prever próximo token) para que ele aprenda a seguir instruções dos usuários. É o que transformou GPT-3 (difícil de usar) em ChatGPT (intuitivo e popular).
Por que precisa: um modelo base, treinado só em prever próxima palavra na internet, não tem por que entender que "Resuma este texto" é uma instrução para sumarizar — ele poderia simplesmente continuar o texto. Instruction tuning ensina esse comportamento.
Como funciona:
1. Criar um dataset de pares (instrução, resposta ideal). Ex: - "Resuma este texto: [texto]" → "[resumo bem feito]" - "Traduza para inglês: [pt]" → "[en]" - "Escreva código Python para [tarefa]" → "[código]" 2. Fine-tunar o modelo base nesse dataset. 3. O modelo aprende o "formato" de seguir instruções.
Datasets populares para instruction tuning:
- FLAN: Google, milhões de instruções em centenas de tarefas.
- Alpaca, Vicuna, WizardLM: gerados sinteticamente com GPT-4.
- OpenAssistant: crowd-sourced, com qualidade humana.
- UltraChat, ShareGPT: conversas reais usadas para treinar.
Modelos resultantes (versões "instruct" ou "chat"):
- Llama 3.3 Instruct: versão otimizada para diálogo.
- Mistral Instruct: idem.
- Qwen 2.5 Chat: idem.
- Claude, ChatGPT, Gemini: já vêm instruct-tuned por padrão.
Frequentemente, instruction tuning é seguido de alignment (RLHF, DPO) que refina ainda mais — não só seguir instruções, mas seguir bem, com tom, segurança, utilidade.
Para o profissional brasileiro:
- Para a maioria dos casos, use modelos já instruct-tunados — não precisa fazer do zero.
- Se vai fine-tunar (Llama, Mistral) para sua empresa, comece sempre da versão "instruct", não da base.
- Instrução em português específica (regras de escrita brasileira, jargão de mercado) pode ser adicionada com fine-tuning leve em cima de modelo já instruct.
Caso brasileiro: Maritaca AI fez instruction tuning forte em português brasileiro, com instruções incluindo gírias, regionalismos, formalidade brasileira. O resultado é um modelo que "soa" mais natural pra brasileiro que GPT puro.
A próxima onda: instruction tuning específico para tools (function calling) e para raciocínio (reasoning models). Modelos novos como Claude Sonnet 4 e GPT-5 já incorporam isso nativamente.
