COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Safety & Alignment pre-llm-era 2017 concept

Explainable AI (XAI)

Conjunto de técnicas para tornar decisões de modelos black-box interpretáveis por humanos.

RESUMO

DARPA lançou o programa XAI em 2017. Inclui métodos post-hoc (SHAP, LIME, attention visualization) e modelos inerentemente interpretáveis. Crítico para domínios regulados — saúde, crédito, justiça. Em LLMs, mechanistic interpretability (Anthropic, OpenAI) é a fronteira.

Tags: interpretability · safety · compliance

VEJA TAMBÉM