Inference & Tokensllm-era2020concept

Context Window

Limite máximo de tokens que o modelo 'vê' por chamada — inclui prompt + saída.

O quê

A context window (janela de contexto) é o número máximo de tokens que um modelo consegue processar em uma única chamada. Crucialmente, esse limite cobre prompt + saída juntos: tudo o que o modelo “vê” e tudo o que ele gera disputam o mesmo orçamento. Se a soma estoura, o conteúdo mais antigo é truncado ou a chamada falha.

A janela define o “campo de visão” do modelo. Fora dela, não existe memória — o modelo não sabe o que foi dito antes, a menos que isso seja reinserido no contexto. É por isso que conversas longas, documentos grandes e agentes de longo horizonte são limitados, em primeira instância, pelo tamanho da janela.

Como funciona

Por que existe um limite

O mecanismo de atenção do Transformer (Self-Attention) compara cada token com todos os outros: custo de tempo e memória quadrático no comprimento da sequência (O(n²)). Dobrar a janela quadruplica o custo do bloco de atenção. Esse é o gargalo fundamental que historicamente prendeu janelas a alguns milhares de tokens.

Como a janela cresceu

GPT-3 (2020): ~2.048 tokens.
GPT-4 Turbo (2023): 128k.
Claude 2/3 (2023–24): 100k–200k.
Gemini 1.5/2.0 (2024+): 1M+ tokens.
Claude Opus 4.x / Sonnet 4.x (2026): 1M tokens.

Esses saltos vieram de uma combinação de truques: posicionamento melhor (RoPE e extrapolação), atenção eficiente (FlashAttention, atenção esparsa, attention sinks), KV cache (KV Cache) e compressão, além de arquiteturas alternativas como Mamba / State Space Models que escalam linearmente.

Custo de janela cheia

Mesmo com janelas enormes, encher 1M de tokens é caro e lento, e a qualidade pode cair no meio do contexto (“lost in the middle” — o modelo recupera melhor o que está no começo e no fim do que o que está enterrado no meio). Por isso RAG — Retrieval-Augmented Generation continua competitivo: recupera só o trecho relevante em vez de despejar tudo.

Input e output dividem o mesmo orçamento

Uma armadilha comum: a janela não é “tamanho do prompt”, é prompt + resposta. Se você usa 190k de um limite de 200k carregando documentos, sobra pouquíssimo para o modelo escrever — e tarefas que pedem saídas longas (relatórios, código extenso, cadeias de Chain-of-Thought (CoT)) podem ser estranguladas pelo contexto de entrada. Planejar o orçamento de tokens — quanto reservar para entrada, quanto para saída — virou parte do design de qualquer aplicação séria, e modelos modernos expõem limites separados de “context window” e “max output tokens” justamente para tornar isso explícito.

Por que importa

Define o que é possível. Sumarizar um livro, revisar um repositório, manter uma conversa de horas — tudo depende da janela.
Molda a arquitetura de aplicações. Janela curta → RAG e chunking obrigatórios; janela longa → “meta tudo no contexto” vira viável.
É um eixo de competição comercial. “1M de contexto” virou item de marketing tão central quanto qualidade bruta.

Estado em 2026

Janelas de 1M tokens são padrão entre os modelos de fronteira (Gemini, Claude Opus 4.x/Sonnet 4.x), com pesquisa rumo a 10M+. O debate contexto longo vs. RAG continua: para fontes pequenas e estáveis, meter tudo no contexto ganha em simplicidade; para corpora grandes ou dinâmicos, RAG ganha em custo e latência. A atenção segue, na prática, a peça mais cara — e híbridos Transformer+SSM e variantes de atenção linear buscam aliviar o custo quadrático que originou o problema.

Tratamento de carta — proposta

Context Window Conceito · Neutral · custo

Token Limit. Você joga com mão máxima de 7. Cartas que excederem esse limite vão para o “overflow” — exiladas até o fim do jogo.

Long Context (upgrade). Pague 3 ⚡: aumente sua mão máxima para 12 pelo resto da partida.

“Tudo o que ele lembra cabe nesta janela. O resto, ele nunca viu.”

A mecânica encena o limite duro de tokens (overflow = truncamento) e a opção cara de expandir a janela.

Veja também

Self-Attention · KV Cache · RAG — Retrieval-Augmented Generation · Mamba / State Space Models · Input/Output Token Pricing

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Gemini Team, Google (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
Anthropic (2026). Claude models overview (1M context). platform.claude.com/docs (acesso jun. 2026).