COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Safety & Alignment llm-era 2022 technique

Red Teaming

Humanos especializados tentam quebrar o modelo antes do release. Equipe interna ou contratada (Apollo, METR).

RESUMO

Anthropic, OpenAI, DeepMind têm red teams formais. UK AISI / US AISI fazem evals pré-deployment de frontier models. Output: bug bounties, system card disclosures.

Tags: evaluation · safety · pre-deployment

VEJA TAMBÉM