COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens llm-era 2018 technique

KV Cache

Armazena Keys/Values de tokens passados para não recomputar a cada novo token. Acelera 10-100×.

RESUMO

Sem KV cache, autoregressão seria O(n²) em cada passo. Memória do cache cresce linear com contexto — gargalo em long context. Otimizações: PagedAttention (vLLM), MQA/GQA.

Tags: optimization · memory · throughput

VEJA TAMBÉM