Modelos de Linguagem (LLMs)

MoE (Mixture of Experts)

Arquitetura que tem vários sub-modelos especialistas e ativa só os relevantes para cada token.

Mixture of Experts (MoE) é uma arquitetura de modelo que, em vez de usar todos os parâmetros para cada token, ativa só um subconjunto — um conjunto de "especialistas" relevantes. Isso permite ter modelos com trilhões de parâmetros que rodam quase tão rápido quanto modelos muito menores.

Como funciona:

  • O modelo tem N "especialistas" (cada um é uma rede neural).
  • Para cada token, um "router" decide quais K especialistas ativar (tipicamente K=2 entre 8, 16 ou 64 especialistas).
  • Só os especialistas selecionados fazem cálculos. Os outros ficam "dormentes" para esse token.

Exemplo: Mixtral 8x7B tem 8 especialistas de 7B cada (totalizando ~47B parâmetros), mas só ativa 2 por token (~13B ativos). Roda com velocidade de modelo de 13B mas tem capacidade próxima a um de 47B.

Vantagens:

  • Mais capacidade com menos compute: dá para escalar a trilhões de parâmetros sem custo proibitivo de inferência.
  • Especialização: especialistas podem se especializar em domínios (matemática, código, idiomas).
  • Eficiência: ideal para modelos servidos em escala (custo por token mais baixo).

Modelos MoE famosos em 2026:

  • GPT-4 (rumores apontam MoE com 8 especialistas de ~220B cada, totalizando 1.8T parâmetros).
  • Mixtral 8x7B e 8x22B (Mistral AI, open source).
  • Grok-2 (xAI).
  • Qwen 2.5 MoE.
  • DeepSeek V3 (671B parâmetros, ~37B ativos).

Desafios técnicos:

  • Load balancing: garantir que especialistas sejam usados de forma equilibrada (senão alguns ficam ociosos).
  • Comunicação entre GPUs: especialistas distribuídos em diferentes GPUs precisam trocar dados.
  • Treinamento estável: routers podem ficar instáveis.
  • Memória: você precisa carregar TODOS os especialistas em memória, mesmo ativando poucos.

Para o profissional brasileiro:

  • Você não precisa entender MoE em detalhes para usar — APIs encapsulam isso.
  • Mas saber que MoE existe explica por que GPT-4 e modelos similares conseguem ser tão capazes e relativamente rápidos.
  • Para self-hosting, MoE pode ser problemático: precisa de bastante VRAM mesmo para inferência.

Em 2026, MoE virou padrão para modelos de fronteira. A próxima geração (GPT-5, Claude 5, Gemini 3) usa variantes ainda mais sofisticadas — mistura de especialistas + raciocínio interno + tool use nativo.

Termos relacionados

Aprenda na prática

Cursos do AulasDeIA que aplicam MoE (Mixture of Experts) no dia a dia profissional brasileiro.

← Voltar ao glossárioExplorar cursos completos →