KV Cache
Armazena Keys/Values de tokens passados para não recomputar a cada novo token. Acelera 10-100×.
RESUMO
Sem KV cache, autoregressão seria O(n²) em cada passo. Memória do cache cresce linear com contexto — gargalo em long context. Otimizações: PagedAttention (vLLM), MQA/GQA.
Tags: optimization · memory · throughput
VEJA TAMBÉM