现在开源模型的16比特,Q8,Q6,Q4,效果损失到底多大?
- 内容介绍
- 文章标签
- 相关推荐
之前看了好几个评测视频,基本上都说Q8就没什么损失,
Q4不到10%,是真的这样吗?
有真实测试数据的介绍文章或者视频吗,谢谢佬友分享。
现在想用M5 macbook的 64G的,用用27b 和 30b的Q8量化,
等M5的mac studio再弄256或者512,这样还能配合远程使用。
网友解答:--【壹】--:
作为ERP用户,明确的说,DS官方的FP8,和非官方的号称FP8(还有明说FP4),甚至硅基哪些INT8,一两轮对话就能用出差异来。
--【贰】--:
就看楼上unslowth的blog就有这部分权威内容了,或者让gpt从unslowth的blog里给你整理。他们在量化和文档分享方面真的很专业
--【叁】--:
供参考
Qwen3.5 GGUF Benchmarks | Unsloth Documentation
See how Unsloth Dynamic GGUFs perform + analysis of perplexity, KL divergence & MXFP4.
其他模型应该也有
如果有精力可以自己做eval测评,用商用模型评估量化效果,但这个纯纯 ai infra 工作
之前看了好几个评测视频,基本上都说Q8就没什么损失,
Q4不到10%,是真的这样吗?
有真实测试数据的介绍文章或者视频吗,谢谢佬友分享。
现在想用M5 macbook的 64G的,用用27b 和 30b的Q8量化,
等M5的mac studio再弄256或者512,这样还能配合远程使用。
网友解答:--【壹】--:
作为ERP用户,明确的说,DS官方的FP8,和非官方的号称FP8(还有明说FP4),甚至硅基哪些INT8,一两轮对话就能用出差异来。
--【贰】--:
就看楼上unslowth的blog就有这部分权威内容了,或者让gpt从unslowth的blog里给你整理。他们在量化和文档分享方面真的很专业
--【叁】--:
供参考
Qwen3.5 GGUF Benchmarks | Unsloth Documentation
See how Unsloth Dynamic GGUFs perform + analysis of perplexity, KL divergence & MXFP4.
其他模型应该也有
如果有精力可以自己做eval测评,用商用模型评估量化效果,但这个纯纯 ai infra 工作

