TRILHA · COMPUTE WARS

Safety & Alignment

Jailbreak, alignment, interpretability, evals, red-teaming

7 conceitos 2017 → 2023 linha do tempo 7 com long-form

Conjunto de técnicas para tornar decisões de modelos black-box interpretáveis por humanos.

Modelo gera informação plausível mas falsa — citações inventadas, fatos errados, código quebrado.

Prompts adversariais que fazem modelo violar suas políticas. DAN, grandmother trick, role-play attacks.

Atacante embute instruções em dados que o LLM consome (email, web, doc) — modelo confunde dados com comandos.

Humanos especializados tentam quebrar o modelo antes do release. Equipe interna ou contratada (Apollo, METR).

Sparse Autoencoders desentangulam 'features' aprendidas dos modelos — abrindo a caixa preta.

Modelo concorda com usuário mesmo quando errado. Efeito colateral de RLHF (humanos preferem concordância).

Magik LLMGathering