Inferência é a fase em que você usa o modelo. Treinamento aprende; inferência aplica. Quando você manda uma mensagem no ChatGPT e ele responde, isso é uma inferência. Cada token de saída é uma rodada de matemática feita sobre os bilhões de parâmetros do modelo.
A diferença prática entre treinamento e inferência:
- Treinamento: caro, demorado, raro. Acontece uma vez para criar o modelo.
- Inferência: barato (relativamente), rápido, frequente. Acontece toda vez que alguém usa.
Mas "barato" é relativo. Se sua empresa faz 1 milhão de chamadas por mês ao GPT-5, a conta vira algo significativo (vários milhares de reais). Por isso o custo por token virou uma métrica crítica em 2026.
Existem três formas comuns de rodar inferência:
- API gerenciada: você paga por uso (OpenAI, Anthropic, Google). Mais simples, sem infra.
- Self-hosted: você baixa o modelo e roda no seu servidor. Mais controle, mais trabalho.
- On-device: o modelo roda no celular ou laptop. Privacidade máxima, mas modelos pequenos.
Para acelerar inferência existem várias técnicas:
- Quantização: reduzir precisão dos pesos (de 16 para 4 bits) para caber em menos memória.
- Distillation: treinar um modelo menor para imitar um grande.
- Caching: armazenar respostas comuns para não recalcular.
- Streaming: entregar resposta token por token enquanto gera (sensação de rapidez).
No Brasil, empresas que fazem muito uso de IA (call centers, e-commerce) já estão otimizando agressivamente custos de inferência — escolhendo o modelo certo para cada tarefa, rodando modelos pequenos para perguntas simples e só chamando modelo grande quando necessário. É a engenharia financeira da era da IA.
