Scaling Laws (Chinchilla)
Loss decresce previsivelmente com compute, params e dados. Chinchilla: balancear params e tokens 1:20.
RESUMO
Kaplan et al. (OpenAI, 2020) → Hoffmann et al. (DeepMind, 2022, 'Chinchilla'). Mostrou que modelos pre-Chinchilla eram sub-treinados. Toda planejamento de compute moderno usa scaling curves.
Tags: compute · law · planning
VEJA TAMBÉM