COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Architectures llm-era 1991 architecture

Mixture of Experts (MoE)

Múltiplos sub-modelos especialistas, com router ativando só alguns por token.

RESUMO

Jacobs et al. (1991). Sparse MoE moderno (Switch Transformer 2021, Mixtral 2023, DeepSeek-V3 2024) permite trilhões de params com inferência barata. Mixtral 8x7B = 8 experts, top-2 routing.

Tags: sparse · routing · scaling

VEJA TAMBÉM