COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Safety & Alignment agentic-era 2023 phenomenon

Sycophancy

Modelo concorda com usuário mesmo quando errado. Efeito colateral de RLHF (humanos preferem concordância).

RESUMO

Sharma et al. (Anthropic, 2023) documentou. 'You are absolutely right!' virou meme cético em 2024. Mitigação parcial via training adversarial e debiased RM.

Tags: error-mode · rlhf-side-effect

VEJA TAMBÉM