Variância em machine learning mede o quanto seu modelo muda se você o treinar em dados ligeiramente diferentes. Modelos de alta variância são instáveis: troque alguns exemplos no treino e a previsão muda totalmente. Modelos de baixa variância são estáveis: pequenas mudanças nos dados quase não alteram as previsões.
Variância está intimamente ligada ao trade-off bias-variance:
- Alto bias, baixa variância: modelo simples, conservador. Erra de forma consistente. Ex: regressão linear para um problema não-linear.
- Baixo bias, alta variância: modelo complexo, oscilante. Acerta os dados de treino mas falha no teste. Ex: rede neural enorme treinada em poucos exemplos.
- O ideal: bias e variância equilibrados, no ponto onde o erro total é mínimo.
Como reconhecer alta variância:
- Performance excelente no treino, ruim na validação.
- Pequenas mudanças nos hiperparâmetros geram resultados muito diferentes.
- Treinos diferentes (sementes aleatórias diferentes) produzem modelos com performances bem distintas.
Como reduzir variância:
- Mais dados de treino: o remédio universal.
- Regularização (L1, L2, dropout): penaliza complexidade.
- Bagging / ensemble: treina vários modelos e faz a média (Random Forest é bagging de árvores).
- Reduzir capacidade do modelo: menos camadas, menos parâmetros.
- Validação cruzada: para detectar e mitigar.
Para o profissional brasileiro, variância é mais relevante quando você está construindo modelos próprios (classificador de churn, scoring de leads, recomendador). Para quem usa apenas LLMs via API, o conceito ainda importa porque LLMs têm variância na geração — pedir a mesma coisa duas vezes pode dar respostas diferentes (controlado por temperatura). Saber disso ajuda a desenhar prompts mais robustos e usar técnicas como self-consistency (gerar várias respostas e escolher a mais frequente).
