Instruction tuning é o processo de fine-tunar um modelo base (que só sabe prever próximo token) para que ele aprenda a seguir instruções dos usuários. É o que transformou GPT-3 (difícil de usar) em ChatGPT (intuitivo e popular).

Por que precisa: um modelo base, treinado só em prever próxima palavra na internet, não tem por que entender que "Resuma este texto" é uma instrução para sumarizar — ele poderia simplesmente continuar o texto. Instruction tuning ensina esse comportamento.

Como funciona:

1. Criar um dataset de pares (instrução, resposta ideal). Ex: - "Resuma este texto: [texto]" → "[resumo bem feito]" - "Traduza para inglês: [pt]" → "[en]" - "Escreva código Python para [tarefa]" → "[código]" 2. Fine-tunar o modelo base nesse dataset. 3. O modelo aprende o "formato" de seguir instruções.

Datasets populares para instruction tuning:

FLAN: Google, milhões de instruções em centenas de tarefas.
Alpaca, Vicuna, WizardLM: gerados sinteticamente com GPT-4.
OpenAssistant: crowd-sourced, com qualidade humana.
UltraChat, ShareGPT: conversas reais usadas para treinar.

Modelos resultantes (versões "instruct" ou "chat"):

Llama 3.3 Instruct: versão otimizada para diálogo.
Mistral Instruct: idem.
Qwen 2.5 Chat: idem.
Claude, ChatGPT, Gemini: já vêm instruct-tuned por padrão.

Frequentemente, instruction tuning é seguido de alignment (RLHF, DPO) que refina ainda mais — não só seguir instruções, mas seguir bem, com tom, segurança, utilidade.

Para o profissional brasileiro:

Para a maioria dos casos, use modelos já instruct-tunados — não precisa fazer do zero.
Se vai fine-tunar (Llama, Mistral) para sua empresa, comece sempre da versão "instruct", não da base.
Instrução em português específica (regras de escrita brasileira, jargão de mercado) pode ser adicionada com fine-tuning leve em cima de modelo já instruct.

Caso brasileiro: Maritaca AI fez instruction tuning forte em português brasileiro, com instruções incluindo gírias, regionalismos, formalidade brasileira. O resultado é um modelo que "soa" mais natural pra brasileiro que GPT puro.

A próxima onda: instruction tuning específico para tools (function calling) e para raciocínio (reasoning models). Modelos novos como Claude Sonnet 4 e GPT-5 já incorporam isso nativamente.

Instruction Tuning

Termos relacionados

Aprenda na prática