LLM Eraagentic-era2024system

o1 / o3 (Reasoning Models)

OpenAI, 2024-2025. Treinados via RL para 'pensar antes de responder' — long chain-of-thought interno.

O quê

o1 e o3 são as primeiras gerações da série de modelos de raciocínio da OpenAI: LLMs treinados via aprendizado por reforço para produzir uma cadeia de raciocínio interna longa antes de emitir a resposta final. Em vez de responder em uma passada, gastam tokens “pensando” — e quanto mais pensam, melhor o resultado em problemas difíceis (Test-Time Compute / Inference Scaling).

A linha do tempo: o1-preview estreou em 12 de setembro de 2024 (codinome interno “Strawberry”); o o1 completo saiu em 5 de dezembro de 2024. O o3 foi anunciado em 20 de dezembro de 2024 (chamado “o3” e não “o2” para evitar conflito de marca com a operadora O2); o o3-mini chegou em 31 de janeiro de 2025 e o o3 completo + o4-mini em 16 de abril de 2025, seguidos do o3-pro em 10 de junho de 2025.

Como funciona

A diferença em relação a um modelo “instruct” tradicional não está só no prompt — está no treino.

RL sobre cadeias de raciocínio

O modelo é otimizado por RL para gerar cadeias de pensamento que levam a respostas verificavelmente corretas. Em domínios com verificação barata (matemática, código), o sinal de recompensa premia raciocínios que chegam ao resultado certo. O efeito é que o modelo aprende a planejar, verificar passos, recuar de becos sem saída e tentar abordagens alternativas — comportamentos que Chain-of-Thought (CoT) por prompting apenas aproximava.

Pensamento oculto

A cadeia de raciocínio bruta é mantida privada pela OpenAI (entre outras razões, para não treinar concorrentes e para liberdade de alinhamento interno). O usuário vê um resumo do raciocínio e a resposta. Isso difere de modelos como o DeepSeek R1 (2025), que expõem a cadeia completa.

Esforço ajustável

A série introduziu níveis de esforço de raciocínio (low/medium/high): o usuário negocia explicitamente latência e custo contra qualidade — mais “thinking tokens” para problemas mais duros.

Por que importa

Inaugurou um novo eixo de escala. Antes, mais capacidade vinha de mais parâmetros / mais pré-treino. A série o mostrou que mais compute em inferência também escala capacidade.
Saltos em raciocínio rigoroso. Ganhos grandes em AIME (matemática de olimpíada), GPQA (ciência de pós-graduação), Codeforces e SWE-bench — o o3 reportou ~93,4% no AIME 2024 e ~69% no SWE-bench Verified.
Mudou o produto. “Modo thinking” virou recurso de primeira classe em todos os grandes assistentes.

Estado em 2026

Os modelos de raciocínio são o eixo central de competição: a OpenAI seguiu para a série seguinte (o GPT-5 como sucessor), Anthropic adicionou extended/adaptive thinking ao Claude, Google entregou Gemini “Thinking”, e o DeepSeek R1 (2025) replicou o paradigma em pesos abertos.

O próprio o3 já está em fim de vida no produto consumidor: a OpenAI anunciou (28 de maio de 2026) que o o3 será aposentado do ChatGPT em 26 de agosto de 2026, após um período de sunset de 90 dias — embora o acesso via API seja mantido. O custo permanece o trade-off central: raciocínio longo pode gastar dezenas de milhares de tokens por consulta, tornando preço por tarefa (e não só por token) a métrica que importa.

Tratamento de carta — proposta

o3, The Reasoner Modelo · Citadel/Helios · custo

Deliberate. Ao invocar, pague custo X extra: The Reasoner entra com +X/+X e você pode disparar até X gatilhos extras de habilidades neste turno.

“Ele não responde rápido. Ele responde certo — e cobra por cada segundo de silêncio.”

A mecânica encena test-time compute: pagar mais energia (“pensar mais”) converte-se diretamente em mais poder e mais ações no turno.

Veja também

Test-Time Compute / Inference Scaling · Chain-of-Thought (CoT) · DeepSeek R1 (2025) · Scaling Laws (Chinchilla) · RLHF — Reinforcement Learning from Human Feedback

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

OpenAI (2024). Learning to Reason with LLMs (o1). OpenAI Tech Report, set. 2024.
OpenAI (2024). OpenAI o1 System Card. dez. 2024.
OpenAI (2025). Introducing OpenAI o3 and o4-mini. openai.com, 16 abr. 2025.