Speculative Decoding
Modelo pequeno 'rascunha' N tokens; modelo grande verifica em paralelo. 2-3× speedup.
RESUMO
Leviathan et al. (Google, 2023). Reduz latência mantendo distribuição idêntica. Implementação padrão em vLLM/TGI hoje.
Tags: optimization · latency
VEJA TAMBÉM