COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Safety & Alignment llm-era 2022 phenomenon

Jailbreak

Prompts adversariais que fazem modelo violar suas políticas. DAN, grandmother trick, role-play attacks.

RESUMO

'DAN' (Do Anything Now), 2022. Pesquisa: GCG (Universal Adversarial Triggers, 2023) mostrou jailbreaks transferíveis. Frontier labs (2024-2026): constitutional classifiers, refusal training reduzem mas não eliminam.

Tags: adversarial · safety · red-team

VEJA TAMBÉM