Inference & Tokensagentic-era2023technique

Speculative Decoding

Modelo pequeno 'rascunha' N tokens; modelo grande verifica em paralelo. 2-3× speedup.

O quê

Speculative decoding é uma técnica de inferência que acelera a geração de texto em 2–3× sem mudar uma vírgula da saída. A ideia: um modelo pequeno e rápido “rascunha” os próximos N tokens; o modelo grande então os verifica todos de uma vez, num único forward pass paralelo, aceitando o prefixo correto e corrigindo o primeiro erro.

Introduzida por Yaniv Leviathan, Matan Kalman e Yossi Matias (Google) na ICML 2023 (arXiv:2211.17192), com formulação paralela da DeepMind (Chen et al., 2023), a técnica tem uma garantia matemática crucial: a distribuição de saída é idêntica à da decodificação normal. Você ganha velocidade de graça, sem trocar qualidade.

Em Magik LLM Gathering, é tratada como technique da trilha de inferência — a aposta que sai barato quando dá certo.

Como funciona

O gargalo: geração é serial

Gerar K tokens exige K passagens sequenciais pelo modelo — cada token depende do anterior. Como o modelo grande é caro por passagem, isso domina a latência. O insight de Leviathan et al.: boa parte dos tokens é “fácil” (artigos, pontuação, continuações óbvias) e poderia ser adivinhada por um modelo muito mais barato.

Rascunho e verificação

Rascunho: o modelo draft (pequeno, ou uma versão destilada via Knowledge Distillation) gera γ tokens candidatos rapidamente.
Verificação paralela: o modelo target (grande) processa todos os γ candidatos numa única passagem — barato, porque é paralelo, não serial.
Aceitação/rejeição: via um esquema de amostragem especial (speculative sampling), ele aceita os tokens em que concorda com o draft e rejeita no primeiro divergente, amostrando ali um token correto.

A garantia de distribuição idêntica

O passo de aceitação não é “confiar no draft” — é um teste estatístico que corrige a distribuição para que o resultado final seja exatamente o que o modelo grande produziria sozinho. Por isso speculative decoding não é aproximação: é exato. O speedup depende da taxa de aceitação — quão bem o draft prevê o target.

Por que importa

Latência e custo caem sem regressão. Respostas mais rápidas com a mesma qualidade significam menos máquinas para o mesmo tráfego — e, portanto, menor custo e consumo de energia por requisição.

Virou padrão de servidores de inferência. Implementações em vLLM e TGI trouxeram a técnica para produção; variantes como Medusa e EAGLE (cabeças de rascunho integradas ao próprio target) empurraram os ganhos adiante.

Compõe com hardware. Casado a chips de inferência rápida (Groq / Cerebras (Inference)) e a KV Cache, speculative decoding faz parte do arsenal padrão para domar o gargalo serial da geração.

Estado em 2026

Ubíqua em produção. Praticamente todo serving de LLM em escala usa alguma forma de decodificação especulativa.
Auto-especulação. Técnicas onde o próprio modelo gera o rascunho (camadas iniciais, cabeças extras) eliminam a necessidade de um segundo modelo separado.
Ainda mais relevante com raciocínio. Modelos de Test-Time Compute / Inference Scaling geram cadeias longas de tokens internos; acelerar cada token amplia o ganho total.
Trade-off claro: quanto melhor o draft prevê o target, maior o speedup — daí o casamento com distilação e cabeças especializadas.

Tratamento de carta — proposta

Speculative Decoding Técnica · Foundry

Jogue um Construct “draft” barato ao lado de um Modelo grande. No seu turno, o draft propõe 3 ações; o Modelo grande verifica em paralelo e executa todas as que aprovar de graça, parando na primeira que rejeitar.

“Rascunhe rápido. Verifique tudo de uma vez. Pague só pelo que serve.”

A mecânica encena o draft-then-verify: ações baratas propostas em lote, aprovadas em paralelo, sem custo extra de qualidade.

Veja também

KV Cache · Knowledge Distillation · Groq / Cerebras (Inference) · Test-Time Compute / Inference Scaling

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Leviathan, Y., Kalman, M., Matias, Y. (2023). Fast Inference from Transformers via Speculative Decoding. ICML 2023. arXiv:2211.17192.
Chen, C. et al. (2023). Accelerating Large Language Model Decoding with Speculative Sampling (DeepMind). arXiv:2302.01318.
Stern, M. et al. (2018). Blockwise Parallel Decoding for Deep Autoregressive Models. NeurIPS 2018.

Magik LLMGathering