Architecturesllm-era1991architecture

Mixture of Experts (MoE)

Múltiplos sub-modelos especialistas, com router ativando só alguns por token.

O quê

Mixture-of-Experts (MoE) é a arquitetura de rede neural em que, em vez de todo o modelo processar cada entrada, há vários “experts” especializados e um gating network que decide qual(is) expert(s) ativar para cada token. Resultado: você pode ter um modelo com trilhões de parâmetros totais mas só dezenas de bilhões ativos por token — eficiência computacional dramática sem perder capacidade.

A ideia tem 34 anos (Jacobs et al., 1991), mas só virou padrão industrial em 2022-2024 com GShard, Switch Transformer, Mixtral, GPT-4 (que se acredita ser MoE), DeepSeek-V3. Hoje, todos os modelos de fronteira parecem rodar alguma variante de MoE.

Em Magik LLM Gathering, MoE é tratado como Construct · Architecture · Foundry, símbolo da era em que escalar sem queimar GPUs virou possível.

Como funciona

Em uma camada dense Transformer, a feed-forward network processa todo token através de toda a rede. Em uma camada MoE, a feed-forward é substituída por:

N experts — N (tipicamente 8-256) feed-forward networks independentes, cada uma com seus próprios pesos.
Gating network — uma pequena rede que recebe o token e produz N scores, decidindo qual expert vai processar.
Top-K selection — só os K experts com maior score processam o token (K = 1 ou 2, normalmente). Os outros experts ficam inativos para esse token.

Resultado: para cada token, só K dos N experts são ativados. Se N=64 e K=2, você ativa 3% dos parâmetros do bloco MoE por token.

Variantes principais

Sparse MoE (Switch Transformer, 2021) — K=1, cada token vai para exatamente um expert. Mais eficiente, mais agressivo.
Top-2 MoE (Mixtral 8x7B, 2023) — K=2 com normalização. Mais qualidade, ligeiramente mais caro.
MoE com Shared Experts (DeepSeek-V2/V3, 2024) — alguns experts são “shared” (sempre ativos) para capturar conhecimento geral; os outros são “routed” e especializados.
Hierarchical MoE — experts agrupados em árvore, gating multi-nível.

Desafios técnicos

MoE parece ótimo no papel mas tem complicações sérias:

Load balancing — sem cuidado, o gating concentra tudo em um expert favorito (“dead experts” recebem zero tokens, “hot experts” são gargalo). Solução: auxiliary loss que penaliza desbalanceamento.
Capacity factor — quantos tokens cada expert pode processar por batch. Se um expert é “popular”, tokens excedentes são descartados (token drop) — perde-se informação.
Comunicação inter-GPU — em treino distribuído, cada expert vive em uma GPU diferente. Despachar tokens para o expert certo e receber a resposta exige all-to-all communication — caro em latência.
Inferência batched — em produção, batches inteiros precisam ser roteados, e o pattern de routing varia por batch.

Frameworks como DeepSpeed-MoE, Megatron-LM, MegaBlocks (Stanford) e Tutel (Microsoft) endereçam esses pontos.

Por que importa

Quebrou o tradeoff capacidade × custo. Antes de MoE, escalar capacidade (mais parâmetros) significava escalar compute por inferência proporcionalmente. MoE quebrou: você pode 5x a capacidade total sem aumentar muito o custo por token. Isso é o que permite rodar modelos como Mixtral 8x22B em uma máquina single-GPU enquanto o equivalente dense teria custo de 8 GPUs.

Habilitou trilhões de parâmetros sem que computação ficasse impraticável. GLaM (Google, 2022) — 1.2 trilhão parâmetros totais, 97B ativos por token. Switch Transformer — 1.6 trilhão. Especulações sobre GPT-4 (~1.8T total) e Gemini 1.5 apontam MoE como mecanismo central. DeepSeek-V3 (dez/2024) tem 671B total, 37B ativos.

Mistral abriu o paradigma para open-source. Mixtral 8x7B (Mistral AI, dez/2023) foi o primeiro grande MoE realmente acessível em open-source — 47B parâmetros totais mas só 13B ativos. Bate Llama 2 70B em quase tudo, mas roda em hardware bem mais modesto. Mostrou que a comunidade open também podia jogar nessa arquitetura.

DeepSeek levou MoE a outro patamar. DeepSeek-V3 (dez/2024) usa MoE com 671B parâmetros totais e rotina de treino que custou ~$5.6M (vs. estimados $60-100M de modelos comparáveis fechados). Mostrou que engenharia de treino MoE pode tornar fronteira acessível em compute 10× menor — onda de pânico em Wall Street em janeiro de 2025.

Especialização emergente. Em modelos MoE bem treinados, experts emergem espontaneamente como especializados — uns viram bons em código Python, outros em raciocínio matemático, outros em multilingual, outros em conversação informal. Esse é um insight estrutural sobre como “conhecimento” pode ser modular dentro de um único modelo.

Estado em 2026

MoE é o default em fronteira. Toda lab top-tier (Anthropic, OpenAI, Google, Meta, Mistral, DeepSeek, xAI, Qwen/Alibaba) usa alguma variante.
Open-source MoE acessível — Mixtral, Qwen2 MoE, DeepSeek-V3, Snowflake Arctic.
Pesquisa ativa em routing efficiency — MegaBlocks, Tutel, expert parallel libraries.
Treino estável continua sendo arte — load balance loss, capacity factor tuning, dropout dos experts.
Inferência otimizada via vLLM, TensorRT-LLM, SGLang com routing batching especializado.
Tensão com long context — MoE + 1M contexto exige sharding criativo; OpenAI, Google e Anthropic resolveram diferente.

Tratamento de carta — proposta

Mixture of Experts Construct · Architecture · Foundry/Mistral · custo

Architecture · Sparse.

Experts: Quando este Construct entra em jogo, escolha 4 cartas de Conceito do seu deck e ponha-as boca-abaixo ao lado dele como “Experts”. Embaralhe o resto.

Gating: Quando você joga um Modelo, você pode revelar e ativar 1 dos Experts em vez de pagar uma keyword exigida pelo Modelo.

“Não é eficiente acordar o modelo inteiro. Acorde só os que precisam.”

A mecânica encena: você tem N especialistas guardados; o gating ativa só os relevantes por jogada — sparsity ganha em qualidade total e custo.

Veja também

Transformer · Scaling Laws (Chinchilla) · Knowledge Distillation · DeepSeek R1 (2025)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Jacobs, R.A. et al. (1991). Adaptive Mixtures of Local Experts. Neural Computation 3(1).
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017.
Fedus, W., Zoph, B., Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. JMLR 2022.
Mistral AI (2023). Mixtral 8x7B Technical Report.
DeepSeek (2024). DeepSeek-V3 Technical Report.