Mixture of Experts (MoE) é uma arquitetura de modelo que, em vez de usar todos os parâmetros para cada token, ativa só um subconjunto — um conjunto de "especialistas" relevantes. Isso permite ter modelos com trilhões de parâmetros que rodam quase tão rápido quanto modelos muito menores.
Como funciona:
- O modelo tem N "especialistas" (cada um é uma rede neural).
- Para cada token, um "router" decide quais K especialistas ativar (tipicamente K=2 entre 8, 16 ou 64 especialistas).
- Só os especialistas selecionados fazem cálculos. Os outros ficam "dormentes" para esse token.
Exemplo: Mixtral 8x7B tem 8 especialistas de 7B cada (totalizando ~47B parâmetros), mas só ativa 2 por token (~13B ativos). Roda com velocidade de modelo de 13B mas tem capacidade próxima a um de 47B.
Vantagens:
- Mais capacidade com menos compute: dá para escalar a trilhões de parâmetros sem custo proibitivo de inferência.
- Especialização: especialistas podem se especializar em domínios (matemática, código, idiomas).
- Eficiência: ideal para modelos servidos em escala (custo por token mais baixo).
Modelos MoE famosos em 2026:
- GPT-4 (rumores apontam MoE com 8 especialistas de ~220B cada, totalizando 1.8T parâmetros).
- Mixtral 8x7B e 8x22B (Mistral AI, open source).
- Grok-2 (xAI).
- Qwen 2.5 MoE.
- DeepSeek V3 (671B parâmetros, ~37B ativos).
Desafios técnicos:
- Load balancing: garantir que especialistas sejam usados de forma equilibrada (senão alguns ficam ociosos).
- Comunicação entre GPUs: especialistas distribuídos em diferentes GPUs precisam trocar dados.
- Treinamento estável: routers podem ficar instáveis.
- Memória: você precisa carregar TODOS os especialistas em memória, mesmo ativando poucos.
Para o profissional brasileiro:
- Você não precisa entender MoE em detalhes para usar — APIs encapsulam isso.
- Mas saber que MoE existe explica por que GPT-4 e modelos similares conseguem ser tão capazes e relativamente rápidos.
- Para self-hosting, MoE pode ser problemático: precisa de bastante VRAM mesmo para inferência.
Em 2026, MoE virou padrão para modelos de fronteira. A próxima geração (GPT-5, Claude 5, Gemini 3) usa variantes ainda mais sofisticadas — mistura de especialistas + raciocínio interno + tool use nativo.
