o1 / o3 (Reasoning Models)
OpenAI, 2024-2025. Treinados via RL para 'pensar antes de responder' — long chain-of-thought interno.
RESUMO
Test-time compute: o modelo gasta mais tokens 'pensando' antes do output final. Bate humanos em matemática/código. Custo de inferência alto. DeepSeek R1 replicou open-source em 2025.
Tags: reasoning · test-time-compute · rl-trained
VEJA TAMBÉM