Parâmetros são os pesos numéricos de uma rede neural — bilhões de números que codificam tudo que o modelo aprendeu. Quando dizemos "GPT-4 tem 1,8 trilhão de parâmetros" ou "Llama 3 70B" (70 bilhões), estamos contando esses pesos.
Conceitualmente, cada conexão entre neurônios artificiais tem um peso (parâmetro). Treinar é ajustar esses pesos para minimizar erro. Mais parâmetros = mais capacidade de aprender padrões complexos = mas também mais custo computacional.
Tamanhos típicos em 2026:
- Pequenos (< 7B): Phi-3, Gemma 2B, Llama 3.1 8B. Rodam em laptop ou celular.
- Médios (7-70B): Mistral 7B, Llama 3.3 70B, Qwen 72B. Rodam em GPU dedicada.
- Grandes (70B+): GPT-5, Claude Sonnet 4, Gemini Pro. Rodam só em data centers.
- Mixture of Experts (MoE): GPT-4, Mixtral 8x22B. Têm trilhões de parâmetros mas ativam só uma fração por chamada.
Implicações práticas:
- Memória: cada parâmetro ocupa 2-4 bytes. Llama 70B em FP16 ocupa 140GB de RAM/VRAM.
- Velocidade: mais parâmetros = mais multiplicações = mais lento. Modelos pequenos respondem em milissegundos; grandes em segundos.
- Qualidade: em geral, mais parâmetros = melhor performance. Mas com retornos decrescentes.
- Custo: API de modelo grande custa 10-100x mais que de modelo pequeno por token.
Como reduzir tamanho sem perder muito:
- Quantização: reduzir precisão (FP16 → INT8 → INT4). Llama 70B quantizado para 4 bits cabe em 35GB.
- Distillation: treinar modelo pequeno para imitar grande.
- Pruning: remover pesos pouco usados.
- Mixture of Experts: ativar só "especialistas" relevantes.
No Brasil, a escolha do tamanho do modelo é decisão estratégica:
- Para um chatbot simples de SAC: Llama 7B quantizado, on-prem, custa centavos.
- Para análise jurídica complexa: Claude Sonnet 4 ou GPT-5, via API.
- Para classificação de tickets: BERT pequeno, fine-tunado, milissegundos por ticket.
A regra de ouro: comece com o menor modelo que resolve seu problema. Modelo grande sempre funciona, mas custa caro e demora.
