Phenomena & Laws
Scaling laws, emergent capabilities, grokking, double descent
5 conceitos · ordenados cronologicamente
1980
concept
Chinese Room argument
Experimento mental de John Searle — manipular símbolos sem entender significado não é compreensão real.
1989
phenomenon
Catastrophic Forgetting
Quando fine-tuna em tarefa B, modelo esquece tarefa A. Por que treinos continuais são difíceis.
2022
phenomenon
Scaling Laws (Chinchilla)
Loss decresce previsivelmente com compute, params e dados. Chinchilla: balancear params e tokens 1:20.
2022
phenomenon
Emergent Capabilities
Capacidades que aparecem 'do nada' em modelos grandes (não escalam smooth com tamanho).
2022
phenomenon
Grokking
Treine MUITO depois de overfit — eventualmente o modelo 'estala' e generaliza. Fascina mecanistas.
Ler mais →