Mixture of Experts (MoE) é uma arquitetura de modelo que, em vez de usar todos os parâmetros para cada token, ativa só um subconjunto — um conjunto de "especialistas" relevantes. Isso permite ter modelos com trilhões de parâmetros que rodam quase tão rápido quanto modelos muito menores.

Como funciona:

O modelo tem N "especialistas" (cada um é uma rede neural).
Para cada token, um "router" decide quais K especialistas ativar (tipicamente K=2 entre 8, 16 ou 64 especialistas).
Só os especialistas selecionados fazem cálculos. Os outros ficam "dormentes" para esse token.

Exemplo: Mixtral 8x7B tem 8 especialistas de 7B cada (totalizando ~47B parâmetros), mas só ativa 2 por token (~13B ativos). Roda com velocidade de modelo de 13B mas tem capacidade próxima a um de 47B.

Vantagens:

Mais capacidade com menos compute: dá para escalar a trilhões de parâmetros sem custo proibitivo de inferência.
Especialização: especialistas podem se especializar em domínios (matemática, código, idiomas).
Eficiência: ideal para modelos servidos em escala (custo por token mais baixo).

Modelos MoE famosos em 2026:

GPT-4 (rumores apontam MoE com 8 especialistas de ~220B cada, totalizando 1.8T parâmetros).
Mixtral 8x7B e 8x22B (Mistral AI, open source).
Grok-2 (xAI).
Qwen 2.5 MoE.
DeepSeek V3 (671B parâmetros, ~37B ativos).

Desafios técnicos:

Load balancing: garantir que especialistas sejam usados de forma equilibrada (senão alguns ficam ociosos).
Comunicação entre GPUs: especialistas distribuídos em diferentes GPUs precisam trocar dados.
Treinamento estável: routers podem ficar instáveis.
Memória: você precisa carregar TODOS os especialistas em memória, mesmo ativando poucos.

Para o profissional brasileiro:

Você não precisa entender MoE em detalhes para usar — APIs encapsulam isso.
Mas saber que MoE existe explica por que GPT-4 e modelos similares conseguem ser tão capazes e relativamente rápidos.
Para self-hosting, MoE pode ser problemático: precisa de bastante VRAM mesmo para inferência.

Em 2026, MoE virou padrão para modelos de fronteira. A próxima geração (GPT-5, Claude 5, Gemini 3) usa variantes ainda mais sofisticadas — mistura de especialistas + raciocínio interno + tool use nativo.

MoE (Mixture of Experts)

Termos relacionados

Aprenda na prática