Fundamentos de IA e ML

Inferência

Ato de usar um modelo já treinado para fazer previsões ou gerar conteúdo a partir de uma entrada.

Inferência é a fase em que você usa o modelo. Treinamento aprende; inferência aplica. Quando você manda uma mensagem no ChatGPT e ele responde, isso é uma inferência. Cada token de saída é uma rodada de matemática feita sobre os bilhões de parâmetros do modelo.

A diferença prática entre treinamento e inferência:

  • Treinamento: caro, demorado, raro. Acontece uma vez para criar o modelo.
  • Inferência: barato (relativamente), rápido, frequente. Acontece toda vez que alguém usa.

Mas "barato" é relativo. Se sua empresa faz 1 milhão de chamadas por mês ao GPT-5, a conta vira algo significativo (vários milhares de reais). Por isso o custo por token virou uma métrica crítica em 2026.

Existem três formas comuns de rodar inferência:

  1. API gerenciada: você paga por uso (OpenAI, Anthropic, Google). Mais simples, sem infra.
  2. Self-hosted: você baixa o modelo e roda no seu servidor. Mais controle, mais trabalho.
  3. On-device: o modelo roda no celular ou laptop. Privacidade máxima, mas modelos pequenos.

Para acelerar inferência existem várias técnicas:

  • Quantização: reduzir precisão dos pesos (de 16 para 4 bits) para caber em menos memória.
  • Distillation: treinar um modelo menor para imitar um grande.
  • Caching: armazenar respostas comuns para não recalcular.
  • Streaming: entregar resposta token por token enquanto gera (sensação de rapidez).

No Brasil, empresas que fazem muito uso de IA (call centers, e-commerce) já estão otimizando agressivamente custos de inferência — escolhendo o modelo certo para cada tarefa, rodando modelos pequenos para perguntas simples e só chamando modelo grande quando necessário. É a engenharia financeira da era da IA.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam Inferência no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →