Fine-tuning é o processo de pegar um modelo já treinado (Llama, Mistral, GPT) e re-treinar em um dataset menor e específico para sua tarefa. É a forma prática de "ensinar" o modelo a falar sobre seu domínio, no seu estilo, com seu conhecimento.
Quando faz sentido fine-tunar:
- Estilo consistente: você quer que toda saída soe como sua marca (tom, jargão).
- Formato estruturado: você precisa de saídas em JSON específico, com validação rigorosa.
- Domínio especializado: medicina, direito, química — onde vocabulário e raciocínio são únicos.
- Tarefa repetitiva e crítica: classificação de tickets, geração de descrições de produto.
- Custo de inferência: um modelo pequeno fine-tunado pode superar um grande genérico para sua tarefa, com 10x menos custo.
Quando NÃO faz sentido:
- Conhecimento que muda: para fatos atualizados, use RAG (não fine-tuning).
- Você tem poucos dados (< 100 exemplos): use few-shot prompting.
- Tarefa rara: o ROI não compensa o esforço.
Tipos de fine-tuning:
- Full fine-tuning: ajusta todos os pesos. Caro mas máxima performance.
- LoRA (Low-Rank Adaptation): ajusta só pequenas matrizes adaptadoras. Padrão em 2026.
- QLoRA: LoRA com modelo quantizado. Cabe em GPU de gamer.
- Instruction tuning: especializar em seguir instruções.
- Preference tuning (DPO, RLHF): alinhar com preferências humanas.
Como fazer no Brasil em 2026:
- OpenAI fine-tuning API: para GPT-4o-mini e GPT-4o. Suba JSONL com exemplos, eles treinam.
- Anthropic: oferece fine-tuning gerenciado para Claude (acesso restrito).
- Hugging Face + Axolotl/Unsloth: para fine-tunar Llama, Mistral em GPUs próprias ou alugadas.
- Together AI, Fireworks, Replicate: serviços que cuidam da infra.
Custo prático: fine-tunar Llama 7B com 1.000 exemplos custa de R$ 50 a R$ 500. Vale o investimento se a tarefa será repetida milhares de vezes.
Exemplo brasileiro: Magazine Luiza fine-tunou modelos para gerar descrições de produtos no tom da marca, com vocabulário coloquial brasileiro. Resultado: 30% mais conversão que descrições genéricas e custo 80% menor que GPT-4 puro.
