Modelos de Linguagem (LLMs)

Distillation

Treinar um modelo pequeno para imitar um modelo grande, preservando muito da qualidade com menos custo.

Distillation (destilação) é a técnica de treinar um modelo pequeno (student) para imitar as saídas de um modelo grande (teacher). O objetivo é capturar a maior parte da capacidade do modelo grande em um modelo muito mais barato de rodar.

Como funciona:

  1. Você tem um modelo grande, capaz, mas caro (ex: GPT-4, Claude Opus).
  2. Roda o teacher em milhões de inputs e coleta as saídas (ou as distribuições de probabilidade).
  3. Treina o student (modelo pequeno) com esses pares (input, saída do teacher) como dataset.
  4. O student aprende a imitar o teacher — não exatamente, mas o suficiente para a maioria dos casos.

Resultado: um modelo 10x menor que mantém 80-95% da qualidade — perfeito para produção em escala, edge devices, ou quando custo importa.

Casos famosos:

  • DistilBERT: versão pequena do BERT, 60% menor com 95% da performance.
  • TinyLlama, Phi-3: modelos pequenos treinados parcialmente via distillation de maiores.
  • GPT-4o-mini, Claude Haiku: modelos eficientes que se beneficiam de distillation a partir de versões maiores.
  • Gemini Nano: roda em celulares, distilado de modelos maiores do Google.

Tipos de distillation:

  • Logit distillation: aluno aprende as distribuições de probabilidade do teacher (não só a resposta final).
  • Behavioral distillation: aluno aprende só os outputs.
  • Hidden state distillation: aluno aprende representações internas do teacher.
  • Self-distillation: modelo aprende com versão refinada de si mesmo.

Vantagens:

  • Custo de inferência: modelos pequenos são 10-100x mais baratos.
  • Latência: respostas em milissegundos.
  • Privacidade: roda on-prem ou on-device.
  • Especialização: você pode distilar focando no seu caso de uso (não precisa toda capacidade do teacher).

Limitações:

  • Não captura tudo: tarefas que precisam de raciocínio profundo do teacher podem cair muito.
  • Precisa de muitos dados: milhões de exemplos do teacher.
  • Termos de uso: muitas APIs proíbem usar suas saídas para treinar concorrentes (OpenAI, Anthropic).

Para o profissional brasileiro:

  • Se você roda LLM em escala (call center com milhões de chamadas/mês), distillation pode reduzir custo dramaticamente.
  • Frameworks como Hugging Face TRL, Axolotl facilitam.
  • Cuidado com licenças: distilar GPT-4 para vender é violação de TOS da OpenAI. Distilar Llama 3 (open) é ok.

Em 2026, distillation virou estratégia padrão para deploy: você valida com modelo grande, depois distila para algo viável em produção. É como prototipar com Mercedes e produzir com Fiat — preserva o essencial, baixa o custo.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Distillation no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →