Mechanistic Interpretability (SAE)
Sparse Autoencoders desentangulam 'features' aprendidas dos modelos — abrindo a caixa preta.
RESUMO
Anthropic 'Towards Monosemanticity' (out 2023), 'Scaling Monosemanticity' (mai 2024). Encontraram features como 'Golden Gate Bridge', 'unsafe code', 'sycophancy'. Aplicação prática crescendo em 2025-2026.
Tags: interpretability · anthropic · features
VEJA TAMBÉM