Parâmetros são os pesos numéricos de uma rede neural — bilhões de números que codificam tudo que o modelo aprendeu. Quando dizemos "GPT-4 tem 1,8 trilhão de parâmetros" ou "Llama 3 70B" (70 bilhões), estamos contando esses pesos.

Conceitualmente, cada conexão entre neurônios artificiais tem um peso (parâmetro). Treinar é ajustar esses pesos para minimizar erro. Mais parâmetros = mais capacidade de aprender padrões complexos = mas também mais custo computacional.

Tamanhos típicos em 2026:

Pequenos (< 7B): Phi-3, Gemma 2B, Llama 3.1 8B. Rodam em laptop ou celular.
Médios (7-70B): Mistral 7B, Llama 3.3 70B, Qwen 72B. Rodam em GPU dedicada.
Grandes (70B+): GPT-5, Claude Sonnet 4, Gemini Pro. Rodam só em data centers.
Mixture of Experts (MoE): GPT-4, Mixtral 8x22B. Têm trilhões de parâmetros mas ativam só uma fração por chamada.

Implicações práticas:

Memória: cada parâmetro ocupa 2-4 bytes. Llama 70B em FP16 ocupa 140GB de RAM/VRAM.
Velocidade: mais parâmetros = mais multiplicações = mais lento. Modelos pequenos respondem em milissegundos; grandes em segundos.
Qualidade: em geral, mais parâmetros = melhor performance. Mas com retornos decrescentes.
Custo: API de modelo grande custa 10-100x mais que de modelo pequeno por token.

Como reduzir tamanho sem perder muito:

Quantização: reduzir precisão (FP16 → INT8 → INT4). Llama 70B quantizado para 4 bits cabe em 35GB.
Distillation: treinar modelo pequeno para imitar grande.
Pruning: remover pesos pouco usados.
Mixture of Experts: ativar só "especialistas" relevantes.

No Brasil, a escolha do tamanho do modelo é decisão estratégica:

Para um chatbot simples de SAC: Llama 7B quantizado, on-prem, custa centavos.
Para análise jurídica complexa: Claude Sonnet 4 ou GPT-5, via API.
Para classificação de tickets: BERT pequeno, fine-tunado, milissegundos por ticket.

A regra de ouro: comece com o menor modelo que resolve seu problema. Modelo grande sempre funciona, mas custa caro e demora.

Parâmetros

Termos relacionados

Aprenda na prática