Jailbreak
Prompts adversariais que fazem modelo violar suas políticas. DAN, grandmother trick, role-play attacks.
RESUMO
'DAN' (Do Anything Now), 2022. Pesquisa: GCG (Universal Adversarial Triggers, 2023) mostrou jailbreaks transferíveis. Frontier labs (2024-2026): constitutional classifiers, refusal training reduzem mas não eliminam.
Tags: adversarial · safety · red-team
VEJA TAMBÉM