COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Phenomena & Laws llm-era 2022 phenomenon

Scaling Laws (Chinchilla)

Loss decresce previsivelmente com compute, params e dados. Chinchilla: balancear params e tokens 1:20.

RESUMO

Kaplan et al. (OpenAI, 2020) → Hoffmann et al. (DeepMind, 2022, 'Chinchilla'). Mostrou que modelos pre-Chinchilla eram sub-treinados. Toda planejamento de compute moderno usa scaling curves.

Tags: compute · law · planning

VEJA TAMBÉM