Prompt Engineeringllm-era2022technique

Chain-of-Thought (CoT)

Adicione 'pense passo a passo' — o modelo escreve raciocínio antes da resposta, melhorando dramaticamente em problemas de lógica/matemática.

O quê

Chain-of-Thought (CoT) é a técnica de prompting introduzida por Jason Wei et al. (Google Brain) em janeiro de 2022 que faz modelos de linguagem gerarem o raciocínio intermediário antes da resposta final. Em vez de pedir direto “Quanto é X?”, você induz o modelo a escrever os passos: “Primeiro, … Depois, … Logo, a resposta é Y.”

O ganho foi surpreendente: para problemas de matemática e raciocínio multi-step, modelos suficientemente grandes (escala ~100B+) saltaram de acurácia ~17% para ~57% no GSM8K usando apenas CoT — sem mudar nada no treinamento, apenas no prompt. Foi um dos primeiros exemplos claros de capacidade emergente (Emergent Capabilities).

Como funciona

Três variantes principais:

1. Few-shot CoT (paper original)

Você fornece alguns exemplos de pares (problema, raciocínio + resposta) no prompt. O modelo aprende o padrão de “mostrar trabalho” e replica para o problema seguinte. Exemplo clássico:

Q: Roger tem 5 bolas de tênis. Ele compra 2 latas com 3 bolas cada.
   Quantas bolas ele tem agora?
A: Roger começou com 5 bolas. 2 latas × 3 bolas = 6 bolas a mais.
   5 + 6 = 11. A resposta é 11.

Q: Uma cafeteria tinha 23 maçãs. Usou 20 para fazer torta e comprou 6 mais.
   Quantas maçãs tem agora?
A:

O modelo segue o padrão: “23 - 20 = 3. 3 + 6 = 9. A resposta é 9.”

2. Zero-shot CoT (Kojima et al., 2022)

A descoberta foi ainda mais simples: adicionar “Let’s think step by step” no final do prompt é suficiente para induzir CoT. Sem exemplos. Funcionou em InstructGPT (text-davinci-002 da época) elevando GSM8K de 18% para 41% — apenas com essa string mágica.

3. Self-consistency (Wang et al., 2023)

Em vez de gerar uma cadeia, gere N cadeias (com temperatura > 0 para diversidade) e vote pela resposta final mais frequente. Funciona porque caminhos errados tendem a ser diversos enquanto o caminho correto tende a convergir. Custa N× mais inferência mas melhora acurácia significativamente.

4. Variações estruturadas

Tree of Thoughts (Yao et al., 2023) — explora múltiplos caminhos em árvore, com backtracking.
Graph of Thoughts — generaliza para grafos arbitrários.
ReAct (ReAct — Reason + Act) — intercala raciocínio com chamadas a ferramentas externas.

Por que importa

Mostrou que LLMs sabem mais do que mostram em resposta direta. Antes do CoT, presumia-se que modelos eram “intuitivos” — produziam a resposta em uma passada, sem capacidade de raciocínio multi-step. CoT provou que o raciocínio existe latente e basta um trigger no prompt para ser ativado. Isso mudou a percepção sobre o que LLMs podiam fazer.

Emergence visível. O paper original mostrou que CoT só funciona em modelos grandes (~62B+ de parâmetros). Em modelos menores, o “raciocínio” gerado é incoerente e a acurácia cai. Foi um dos primeiros exemplos publicados de uma capacidade que aparece com escala, alimentando o debate sobre Emergent Capabilities e Scaling Laws (Chinchilla).

Virou primitivo de produto. Em 2022-2023, “system prompt: você é um assistente que sempre raciocina passo a passo” virou template padrão em todas as APIs. ChatGPT, Claude e Gemini incorporaram CoT como comportamento default em modos de “raciocínio”.

Habilitou tool use sofisticado. Para chamar uma ferramenta, o modelo precisa decidir quando chamar e o que passar. CoT estruturado permitiu que esse “thinking before tool call” virasse padrão — base do paradigma ReAct e dos atuais agentes autônomos.

Estabeleceu a era de reasoning models. Em setembro de 2024, OpenAI o1 foi lançado: um modelo treinado especificamente para gastar mais compute em chain-of-thought antes de responder. Resultado: gains massivos em benchmarks matemáticos (AIME, IMO), código competitivo (Codeforces) e ciência (GPQA). Em 2025-2026, Claude 3.7 Sonnet com extended thinking, Gemini 2.0 Flash Thinking, DeepSeek-R1, Qwen QwQ todos seguiram o paradigma. CoT deixou de ser técnica de prompting e virou componente arquitetural do treino.

Test-time compute virou eixo de capacidade. Por décadas, mais inteligência exigia mais parâmetros / mais treino. CoT mostrou que mais tempo pensando em inferência também escala capacidade — outra dimensão para “fazer melhor”. Esse insight estrutura o futuro da indústria: modelos que decidem dinamicamente quanto pensar antes de responder.

Estado em 2026

CoT virou default invisível. Modelos top-tier (Claude 3.7, GPT-4o, Gemini 2.0) usam CoT internamente sem você precisar pedir. Em modos “thinking” / “deep” / “extended”, o raciocínio aparece em UI separada antes da resposta.
Reasoning models são o novo eixo de competição. o-1, o-3 (OpenAI), Claude Opus com thinking (Anthropic), Gemini 2.0 Flash Thinking (Google), DeepSeek-R1 (open-source), Qwen QwQ — todos otimizados para gastar tokens em raciocínio.
Process Reward Models (Lightman et al., 2023) — em vez de só premiar resposta final correta, o modelo aprende a premiar passos intermediários corretos. É a base técnica do o-1 e sucessores.
CoT custa caro. Um problema complexo pode gerar milhares de tokens de “thinking” antes de responder. Em 2026, price per task virou métrica relevante (em vez de só price per token), e quão eficientemente o modelo termina o raciocínio é diferenciador.
CoT é manipulável. Atacantes podem injetar instruções dentro do “thinking” via Prompt Injection de fontes externas (RAG, web search). Mitigação é área ativa.

Tratamento de carta — proposta

Chain-of-Thought Technique · Inference · Neutral · custo

Reasoning.

Quando você joga este Construct em um Modelo, ele recebe a habilidade ativada:

2 ⚡, Tap: Olhe as 3 cartas do topo do deck. Você pode jogar qualquer Conceito entre elas pagando custo reduzido em 2. Embaralhe o resto.

“Vamos pensar passo a passo. Esse foi o prompt que destravou o século.”

A mecânica encena o ganho de CoT: gastar mais “pensamento” (energia) destrava soluções que não estavam acessíveis sem o passo intermediário.

Veja também

Emergent Capabilities · Scaling Laws (Chinchilla) · ReAct — Reason + Act · Self-Consistency · Tree-of-Thought (ToT)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903.
Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022.
Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.
Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023.
Lightman, H. et al. (2023). Let's Verify Step by Step. ICLR 2024.
OpenAI (2024). Learning to Reason with LLMs. OpenAI Tech Report (o1-preview release).