Variância em machine learning mede o quanto seu modelo muda se você o treinar em dados ligeiramente diferentes. Modelos de alta variância são instáveis: troque alguns exemplos no treino e a previsão muda totalmente. Modelos de baixa variância são estáveis: pequenas mudanças nos dados quase não alteram as previsões.

Variância está intimamente ligada ao trade-off bias-variance:

Alto bias, baixa variância: modelo simples, conservador. Erra de forma consistente. Ex: regressão linear para um problema não-linear.
Baixo bias, alta variância: modelo complexo, oscilante. Acerta os dados de treino mas falha no teste. Ex: rede neural enorme treinada em poucos exemplos.
O ideal: bias e variância equilibrados, no ponto onde o erro total é mínimo.

Como reconhecer alta variância:

Performance excelente no treino, ruim na validação.
Pequenas mudanças nos hiperparâmetros geram resultados muito diferentes.
Treinos diferentes (sementes aleatórias diferentes) produzem modelos com performances bem distintas.

Como reduzir variância:

Mais dados de treino: o remédio universal.
Regularização (L1, L2, dropout): penaliza complexidade.
Bagging / ensemble: treina vários modelos e faz a média (Random Forest é bagging de árvores).
Reduzir capacidade do modelo: menos camadas, menos parâmetros.
Validação cruzada: para detectar e mitigar.

Para o profissional brasileiro, variância é mais relevante quando você está construindo modelos próprios (classificador de churn, scoring de leads, recomendador). Para quem usa apenas LLMs via API, o conceito ainda importa porque LLMs têm variância na geração — pedir a mesma coisa duas vezes pode dar respostas diferentes (controlado por temperatura). Saber disso ajuda a desenhar prompts mais robustos e usar técnicas como self-consistency (gerar várias respostas e escolher a mais frequente).

Variância

Termos relacionados

Aprenda na prática