COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens agentic-era 2024 technique

Prompt Caching

Reuse prefixo do prompt entre chamadas — paga 10× menos pelos tokens cacheados.

RESUMO

Anthropic (Aug 2024), OpenAI prompt caching (Oct 2024). Útil para agentes/RAG com system prompt longo e fixo. Cache vive ~5min, refresh barato.

Tags: optimization · cost · agents

VEJA TAMBÉM