Distillation (destilação) é a técnica de treinar um modelo pequeno (student) para imitar as saídas de um modelo grande (teacher). O objetivo é capturar a maior parte da capacidade do modelo grande em um modelo muito mais barato de rodar.
Como funciona:
- Você tem um modelo grande, capaz, mas caro (ex: GPT-4, Claude Opus).
- Roda o teacher em milhões de inputs e coleta as saídas (ou as distribuições de probabilidade).
- Treina o student (modelo pequeno) com esses pares (input, saída do teacher) como dataset.
- O student aprende a imitar o teacher — não exatamente, mas o suficiente para a maioria dos casos.
Resultado: um modelo 10x menor que mantém 80-95% da qualidade — perfeito para produção em escala, edge devices, ou quando custo importa.
Casos famosos:
- DistilBERT: versão pequena do BERT, 60% menor com 95% da performance.
- TinyLlama, Phi-3: modelos pequenos treinados parcialmente via distillation de maiores.
- GPT-4o-mini, Claude Haiku: modelos eficientes que se beneficiam de distillation a partir de versões maiores.
- Gemini Nano: roda em celulares, distilado de modelos maiores do Google.
Tipos de distillation:
- Logit distillation: aluno aprende as distribuições de probabilidade do teacher (não só a resposta final).
- Behavioral distillation: aluno aprende só os outputs.
- Hidden state distillation: aluno aprende representações internas do teacher.
- Self-distillation: modelo aprende com versão refinada de si mesmo.
Vantagens:
- Custo de inferência: modelos pequenos são 10-100x mais baratos.
- Latência: respostas em milissegundos.
- Privacidade: roda on-prem ou on-device.
- Especialização: você pode distilar focando no seu caso de uso (não precisa toda capacidade do teacher).
Limitações:
- Não captura tudo: tarefas que precisam de raciocínio profundo do teacher podem cair muito.
- Precisa de muitos dados: milhões de exemplos do teacher.
- Termos de uso: muitas APIs proíbem usar suas saídas para treinar concorrentes (OpenAI, Anthropic).
Para o profissional brasileiro:
- Se você roda LLM em escala (call center com milhões de chamadas/mês), distillation pode reduzir custo dramaticamente.
- Frameworks como Hugging Face TRL, Axolotl facilitam.
- Cuidado com licenças: distilar GPT-4 para vender é violação de TOS da OpenAI. Distilar Llama 3 (open) é ok.
Em 2026, distillation virou estratégia padrão para deploy: você valida com modelo grande, depois distila para algo viável em produção. É como prototipar com Mercedes e produzir com Fiat — preserva o essencial, baixa o custo.
