Context Window
Limite máximo de tokens que o modelo 'vê' por chamada — inclui prompt + saída.
RESUMO
GPT-3: 2k tokens. GPT-4 Turbo: 128k. Gemini 2.0: 1M+. Claude 4: 1M (beta). Limite quadrático custa caro — daí RAG, attention sinks, KV cache compression. Atenção: cap é input+output juntos.
Tags: limit · memory · long-context
VEJA TAMBÉM