TRILHA · COMPUTE WARS

Phenomena & Laws

Scaling laws, emergent capabilities, grokking, double descent

5 conceitos 1980 → 2022 linha do tempo 5 com long-form

Experimento mental de John Searle — manipular símbolos sem entender significado não é compreensão real.

Quando fine-tuna em tarefa B, modelo esquece tarefa A. Por que treinos continuais são difíceis.

Capacidades que aparecem 'do nada' em modelos grandes (não escalam smooth com tamanho).

Treine MUITO depois de overfit — eventualmente o modelo 'estala' e generaliza. Fascina mecanistas.

Loss decresce previsivelmente com compute, params e dados. Chinchilla: balancear params e tokens 1:20.

Magik LLMGathering