COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Safety & Alignment agentic-era 2023 technique

Mechanistic Interpretability (SAE)

Sparse Autoencoders desentangulam 'features' aprendidas dos modelos — abrindo a caixa preta.

RESUMO

Anthropic 'Towards Monosemanticity' (out 2023), 'Scaling Monosemanticity' (mai 2024). Encontraram features como 'Golden Gate Bridge', 'unsafe code', 'sycophancy'. Aplicação prática crescendo em 2025-2026.

Tags: interpretability · anthropic · features

VEJA TAMBÉM