COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens llm-era 2020 concept

Context Window

Limite máximo de tokens que o modelo 'vê' por chamada — inclui prompt + saída.

RESUMO

GPT-3: 2k tokens. GPT-4 Turbo: 128k. Gemini 2.0: 1M+. Claude 4: 1M (beta). Limite quadrático custa caro — daí RAG, attention sinks, KV cache compression. Atenção: cap é input+output juntos.

Tags: limit · memory · long-context

VEJA TAMBÉM