COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
LLM Era agentic-era 2024 system

o1 / o3 (Reasoning Models)

OpenAI, 2024-2025. Treinados via RL para 'pensar antes de responder' — long chain-of-thought interno.

RESUMO

Test-time compute: o modelo gasta mais tokens 'pensando' antes do output final. Bate humanos em matemática/código. Custo de inferência alto. DeepSeek R1 replicou open-source em 2025.

Tags: reasoning · test-time-compute · rl-trained

VEJA TAMBÉM