COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Inference & Tokens agentic-era 2022 technique

Quantization

Comprime pesos de FP16/BF16 para INT8/INT4. 4× menos memória, leve perda de qualidade.

RESUMO

GPTQ, AWQ, GGUF. Permite rodar Llama 70B em laptop. Comunidade TheBloke / GGUF foi fundamental para democratização. Quantization-aware training reduz perda ainda mais.

Tags: compression · edge · community

VEJA TAMBÉM