Quantization
Comprime pesos de FP16/BF16 para INT8/INT4. 4× menos memória, leve perda de qualidade.
RESUMO
GPTQ, AWQ, GGUF. Permite rodar Llama 70B em laptop. Comunidade TheBloke / GGUF foi fundamental para democratização. Quantization-aware training reduz perda ainda mais.
Tags: compression · edge · community
VEJA TAMBÉM