Mixture of Experts (MoE)
Múltiplos sub-modelos especialistas, com router ativando só alguns por token.
RESUMO
Jacobs et al. (1991). Sparse MoE moderno (Switch Transformer 2021, Mixtral 2023, DeepSeek-V3 2024) permite trilhões de params com inferência barata. Mixtral 8x7B = 8 experts, top-2 routing.
Tags: sparse · routing · scaling
VEJA TAMBÉM