Inference & Tokens
Como modelos são executados: tokens, context, KV cache, quantization, sampling, pricing
9 conceitos · ordenados cronologicamente
Tokenization
Quebrar texto em unidades discretas (tokens) que o modelo processa. Não são exatamente palavras.
KV Cache
Armazena Keys/Values de tokens passados para não recomputar a cada novo token. Acelera 10-100×.
Context Window
Limite máximo de tokens que o modelo 'vê' por chamada — inclui prompt + saída.
Input/Output Token Pricing
Tokens de input e output têm preços diferentes — output custa 2-5× mais. Saber isso muda como você escreve prompts.
Quantization
Comprime pesos de FP16/BF16 para INT8/INT4. 4× menos memória, leve perda de qualidade.
Speculative Decoding
Modelo pequeno 'rascunha' N tokens; modelo grande verifica em paralelo. 2-3× speedup.
Edge Inference
Rodar LLMs localmente em hardware do usuário (laptop, celular, dispositivo embarcado) em vez de na nuvem.
Prompt Caching
Reuse prefixo do prompt entre chamadas — paga 10× menos pelos tokens cacheados.
Test-Time Compute / Inference Scaling
Modelo gasta MAIS tokens 'pensando' durante inferência → melhor resposta. Lei de escala paralela ao pre-training.