Safety & Alignmentagentic-era2023technique

Mechanistic Interpretability (SAE)

Sparse Autoencoders desentangulam 'features' aprendidas dos modelos — abrindo a caixa preta.

O quê

Interpretabilidade mecanística busca engenharia reversa das computações internas de uma rede neural — não só prever o que ela faz, mas entender como. Os Sparse Autoencoders (SAEs) são a ferramenta que destravou esse programa em escala: eles desemaranham as ativações do modelo em milhões de “features” interpretáveis — direções no espaço de ativação que correspondem a conceitos humanos.

O problema que os SAEs resolvem é a superposição: redes representam muito mais conceitos do que têm neurônios, “empacotando” várias features em cada neurônio (que fica polissemântico). Um SAE aprende um dicionário esparso e maior que reescreve cada ativação como combinação de poucas features, cada uma monossemântica (um conceito só). O trabalho de referência é da Anthropic: Towards Monosemanticity (out. 2023, em um transformer de uma camada) e Scaling Monosemanticity (mai. 2024, no Claude 3 Sonnet de produção).

Como funciona

O autoencoder esparso

Pega-se a ativação de uma camada (tipicamente o residual stream do meio) e treina-se um autoencoder com:

dimensão oculta muito maior que a entrada (overcomplete);
penalidade de esparsidade (poucas features ativas por token).

O resultado é um conjunto de features cada uma ativando para um conceito específico. No Claude 3 Sonnet, a Anthropic treinou SAEs com até 34 milhões de features e encontrou desde entidades concretas (a famosa feature da Golden Gate Bridge) até conceitos abstratos (sarcasmo, erros em código) e features relevantes para segurança: engano, busca por poder, Sycophancy e viés.

Causalidade, não só correlação

O ponto crucial: features podem ser manipuladas. Amplificar a feature da Golden Gate Bridge produziu o “Golden Gate Claude”, que mencionava a ponte em qualquer assunto. Isso prova que as features causam comportamento, não apenas correlacionam — abrindo caminho para steering (direcionar o modelo editando features).

Para circuitos

A fronteira seguinte (2024–2025) liga features em circuitos: sparse feature circuits (Marks et al., ICLR 2025) e circuit tracing / attribution graphs (Lindsey et al., Anthropic, 2025), que substituem MLPs por cross-layer transcoders para rastrear como features se combinam e produzem uma saída — a “biologia” do modelo.

Por que importa

Abre a caixa-preta. É a primeira via prática para inspeção em escala de modelos de produção.
É uma aposta de segurança. Detectar features de engano ou jailbreak pode habilitar monitoramento e intervenção mais robustos que filtros de saída.
Conecta-se a alinhamento. Complementa Constitutional AI (CAI): em vez de só treinar comportamento, busca-se entender e editar a representação interna.
Ataca a superposição na raiz. Ao explicar por que neurônios individuais são ininterpretáveis (cada um codifica muitos conceitos), os SAEs deram base teórica ao que antes era folclore — o motivo de “olhar um neurônio” quase nunca revelar nada legível.

Estado em 2026

A interpretabilidade saiu do laboratório e virou prioridade declarada: a Anthropic usa SAEs e attribution graphs para auditar comportamentos, distinguir raciocínio “fiel” de raciocínio “fabricado” em cadeias de Chain-of-Thought (CoT), e investigar honestidade. As limitações continuam sérias e admitidas pelos próprios autores: o conjunto de features é incompleto, encontrar todas seria proibitivamente caro (mais compute que treinar o modelo), e ainda faltam métricas rigorosas de fidelidade. Mesmo assim, em 2026 é uma das poucas linhas de pesquisa que oferece uma rota para entender — e não só testar — modelos de fronteira.

Tratamento de carta — proposta

Sparse Autoencoder Atlas Site · Citadel/Lazuli · custo

Open the Black Box. Enquanto este Site estiver em jogo, você vê 1 habilidade oculta (face para baixo) de cada Modelo do oponente.

Feature Steering. Pague 3 ⚡, Tap: amplifique uma feature de um Modelo do oponente — ele é forçado a “obcecar” por ela (só pode ativar aquela habilidade no próximo turno).

“Encontramos a feature da Golden Gate Bridge. Aumentamos o volume. O modelo só falava da ponte.”

A mecânica encena os dois feitos dos SAEs: revelar features ocultas e manipulá-las causalmente (steering).

Veja também

Constitutional AI (CAI) · Explainable AI (XAI) · Sycophancy · Claude · Chain-of-Thought (CoT)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Bricken, T. et al. (2023). Towards Monosemanticity: Decomposing Language Models With Dictionary Learning. Anthropic / Transformer Circuits.
Templeton, A. et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic / Transformer Circuits.
Lindsey, J. et al. (2025). Circuit Tracing: Revealing Computational Graphs in Language Models. Anthropic.