Safety & Alignment
Jailbreak, alignment, interpretability, evals, red-teaming
7 conceitos · ordenados cronologicamente
Explainable AI (XAI)
Conjunto de técnicas para tornar decisões de modelos black-box interpretáveis por humanos.
Jailbreak
Prompts adversariais que fazem modelo violar suas políticas. DAN, grandmother trick, role-play attacks.
Prompt Injection
Atacante embute instruções em dados que o LLM consome (email, web, doc) — modelo confunde dados com comandos.
Hallucination
Modelo gera informação plausível mas falsa — citações inventadas, fatos errados, código quebrado.
Red Teaming
Humanos especializados tentam quebrar o modelo antes do release. Equipe interna ou contratada (Apollo, METR).
Sycophancy
Modelo concorda com usuário mesmo quando errado. Efeito colateral de RLHF (humanos preferem concordância).
Mechanistic Interpretability (SAE)
Sparse Autoencoders desentangulam 'features' aprendidas dos modelos — abrindo a caixa preta.