Distillation (destilação) é a técnica de treinar um modelo pequeno (student) para imitar as saídas de um modelo grande (teacher). O objetivo é capturar a maior parte da capacidade do modelo grande em um modelo muito mais barato de rodar.

Como funciona:

Você tem um modelo grande, capaz, mas caro (ex: GPT-4, Claude Opus).
Roda o teacher em milhões de inputs e coleta as saídas (ou as distribuições de probabilidade).
Treina o student (modelo pequeno) com esses pares (input, saída do teacher) como dataset.
O student aprende a imitar o teacher — não exatamente, mas o suficiente para a maioria dos casos.

Resultado: um modelo 10x menor que mantém 80-95% da qualidade — perfeito para produção em escala, edge devices, ou quando custo importa.

Casos famosos:

DistilBERT: versão pequena do BERT, 60% menor com 95% da performance.
TinyLlama, Phi-3: modelos pequenos treinados parcialmente via distillation de maiores.
GPT-4o-mini, Claude Haiku: modelos eficientes que se beneficiam de distillation a partir de versões maiores.
Gemini Nano: roda em celulares, distilado de modelos maiores do Google.

Tipos de distillation:

Logit distillation: aluno aprende as distribuições de probabilidade do teacher (não só a resposta final).
Behavioral distillation: aluno aprende só os outputs.
Hidden state distillation: aluno aprende representações internas do teacher.
Self-distillation: modelo aprende com versão refinada de si mesmo.

Vantagens:

Custo de inferência: modelos pequenos são 10-100x mais baratos.
Latência: respostas em milissegundos.
Privacidade: roda on-prem ou on-device.
Especialização: você pode distilar focando no seu caso de uso (não precisa toda capacidade do teacher).

Limitações:

Não captura tudo: tarefas que precisam de raciocínio profundo do teacher podem cair muito.
Precisa de muitos dados: milhões de exemplos do teacher.
Termos de uso: muitas APIs proíbem usar suas saídas para treinar concorrentes (OpenAI, Anthropic).

Para o profissional brasileiro:

Se você roda LLM em escala (call center com milhões de chamadas/mês), distillation pode reduzir custo dramaticamente.
Frameworks como Hugging Face TRL, Axolotl facilitam.
Cuidado com licenças: distilar GPT-4 para vender é violação de TOS da OpenAI. Distilar Llama 3 (open) é ok.

Em 2026, distillation virou estratégia padrão para deploy: você valida com modelo grande, depois distila para algo viável em produção. É como prototipar com Mercedes e produzir com Fiat — preserva o essencial, baixa o custo.

Distillation

Termos relacionados

Aprenda na prática