TRILHA · COMPUTE WARS

Inference & Tokens

Como modelos são executados: tokens, context, KV cache, quantization, sampling, pricing

9 conceitos 2016 → 2024 linha do tempo 9 com long-form

technique ◇ LONG-FORM

Tokenization

Quebrar texto em unidades discretas (tokens) que o modelo processa. Não são exatamente palavras.

Abrir conceito

technique ◇ LONG-FORM

KV Cache

Armazena Keys/Values de tokens passados para não recomputar a cada novo token. Acelera 10-100×.

Abrir conceito

concept ◇ LONG-FORM

Context Window

Limite máximo de tokens que o modelo 'vê' por chamada — inclui prompt + saída.

Abrir conceito

concept ◇ LONG-FORM

Input/Output Token Pricing

Tokens de input e output têm preços diferentes — output custa 2-5× mais. Saber isso muda como você escreve prompts.

Abrir conceito

technique ◇ LONG-FORM

Quantization

Comprime pesos de FP16/BF16 para INT8/INT4. 4× menos memória, leve perda de qualidade.

Abrir conceito

concept ◇ LONG-FORM

Edge Inference

Rodar LLMs localmente em hardware do usuário (laptop, celular, dispositivo embarcado) em vez de na nuvem.

Abrir conceito

technique ◇ LONG-FORM

Speculative Decoding

Modelo pequeno 'rascunha' N tokens; modelo grande verifica em paralelo. 2-3× speedup.

Abrir conceito

technique ◇ LONG-FORM

Prompt Caching

Reuse prefixo do prompt entre chamadas — paga 10× menos pelos tokens cacheados.

Abrir conceito

phenomenon ◇ LONG-FORM

Test-Time Compute / Inference Scaling

Modelo gasta MAIS tokens 'pensando' durante inferência → melhor resposta. Lei de escala paralela ao pre-training.

Abrir conceito

Magik LLMGathering

Tokenization

KV Cache

Context Window

Input/Output Token Pricing

Quantization

Edge Inference

Speculative Decoding

Prompt Caching

Test-Time Compute / Inference Scaling

Magik LLM
Gathering