COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens agentic-era 2023 technique

Speculative Decoding

Modelo pequeno 'rascunha' N tokens; modelo grande verifica em paralelo. 2-3× speedup.

RESUMO

Leviathan et al. (Google, 2023). Reduz latência mantendo distribuição idêntica. Implementação padrão em vLLM/TGI hoje.

Tags: optimization · latency

VEJA TAMBÉM