Grokking
Treine MUITO depois de overfit — eventualmente o modelo 'estala' e generaliza. Fascina mecanistas.
RESUMO
Power et al. (OpenAI, 2022). Em tarefas algorítmicas pequenas, val accuracy salta de ~0% para 100% após N× passos pós-train-perfeito. Conexão com 'phase transitions'.
Tags: training-dynamics · generalization
VEJA TAMBÉM