Safety & Alignmentpre-llm-era2017concept

Explainable AI (XAI)

Conjunto de técnicas para tornar decisões de modelos black-box interpretáveis por humanos.

O quê

Explainable AI (XAI) é o conjunto de técnicas para tornar decisões de modelos caixa-preta compreensíveis por humanos — responder “por que o modelo decidiu isso?”. O termo ganhou tração institucional com o programa XAI da DARPA, lançado por David Gunning em 2016/2017, que financiou pesquisa para reconciliar o desempenho de modelos opacos com a necessidade humana de entendê-los.

XAI abrange dois grandes caminhos: métodos post-hoc (explicar um modelo já treinado, sem mudá-lo — SHAP, LIME, mapas de saliência, visualização de atenção) e modelos inerentemente interpretáveis (Decision Tree rasas, modelos lineares, onde a explicação é a própria estrutura).

Em Magik LLM Gathering, é tratado como concept · anchor da trilha de segurança — a luta para entender o que o modelo está pensando.

Como funciona

Métodos post-hoc agnósticos de modelo

LIME (Ribeiro et al., 2016) aproxima localmente o modelo complexo por um modelo simples ao redor de uma predição específica: perturba a entrada, vê como a saída muda, e ajusta uma explicação linear local.
SHAP (Lundberg & Lee, 2017) usa valores de Shapley da teoria dos jogos para atribuir, de forma justa e consistente, quanto cada feature contribuiu para a predição. Virou padrão de fato em ML tabular.

Explicações específicas de visão e atenção

Em redes de visão, mapas de saliência e Grad-CAM destacam quais pixels mais influenciaram a classificação. Em Transformers, a visualização de atenção mostra onde o modelo “olhou” — embora atenção não seja explicação causal confiável (um alerta importante e frequentemente esquecido).

A fronteira: interpretabilidade mecanicista

Em LLMs, a vanguarda é a interpretabilidade mecanicista (Mechanistic Interpretability (SAE)): engenharia reversa dos circuitos internos do modelo. Anthropic e OpenAI usam sparse autoencoders para decompor ativações em features interpretáveis (“conceito de ponte Golden Gate”, “código com bug”), buscando não só o que o modelo olhou, mas como ele computa.

Por que importa

É exigência legal em domínios críticos. Crédito, saúde e justiça não aceitam “o modelo disse não” sem justificativa. O GDPR sugere um “direito à explicação”, e o EU AI Act impõe transparência a sistemas de alto risco. Sem XAI, esses modelos não podem ser implantados legalmente.

Constrói (e calibra) confiança. Explicações ajudam humanos a saber quando confiar e quando duvidar — e a detectar quando o modelo acerta pelo motivo errado (correlações espúrias, viés).

É infraestrutura de segurança. Para alinhar e auditar modelos poderosos, é preciso entender seus mecanismos internos. A interpretabilidade mecanicista é hoje uma das apostas centrais da agenda de segurança de IA.

Estado em 2026

Interpretabilidade mecanicista é a fronteira quente. Sparse autoencoders e descoberta de circuitos avançaram de curiosidade acadêmica a ferramenta de segurança em labs fronteira.
SHAP/LIME seguem padrão na indústria para modelos tabulares e compliance — maduros e amplamente integrados.
Pressão regulatória crescente. EU AI Act e regras setoriais empurram XAI de “boa prática” para “obrigação”.
Tensão não resolvida. Os modelos mais capazes são os mais opacos; explicabilidade total de um LLM de fronteira segue sendo objetivo aberto, não realidade.

Tratamento de carta — proposta

Explainable AI Técnica · Safety

Escolha um Modelo (seu ou inimigo): revele todas as habilidades ocultas/faceup-down dele e as razões de seus buffs. Enquanto a XAI estiver em jogo, esse Modelo não pode ter efeitos “secretos” — tudo precisa ser declarado.

“Não basta acertar. Preciso saber por quê.”

A mecânica encena a abertura da caixa-preta: torna visível o que estava oculto e proíbe decisões inexplicadas.

Veja também

Mechanistic Interpretability (SAE) · Decision Tree · Red Teaming · AI Winter

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Gunning, D. (2017). Explainable Artificial Intelligence (XAI) Program. DARPA.
Ribeiro, M., Singh, S., Guestrin, C. (2016). Why Should I Trust You?: Explaining the Predictions of Any Classifier (LIME). KDD 2016.
Lundberg, S., Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions (SHAP). NeurIPS 2017.

Magik LLMGathering