COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Folklore & Memes agentic-era 2024 meme

MMLU Saturation

Benchmark MMLU saturou em ~89% em 2024 — humanos tiram ~89%. Comunidade desistiu de levar a sério.

RESUMO

MMLU (2020) foi o benchmark dominante. GPT-4, Claude 3, Gemini 1.5 todos ~85-90%. Substituído por MMLU-Pro, GPQA Diamond, ARC-AGI, FrontierMath em 2024-2025.

Tags: meme · benchmarks