现在开源模型的16比特，Q8，Q6，Q4，效果损失到底多大？

2026-04-11 08:120阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

之前看了好几个评测视频，基本上都说Q8就没什么损失，

Q4不到10%，是真的这样吗？

有真实测试数据的介绍文章或者视频吗，谢谢佬友分享。

现在想用M5 macbook的 64G的，用用27b 和 30b的Q8量化，

等M5的mac studio再弄256或者512，这样还能配合远程使用。

网友解答：

--【壹】--：

作为ERP用户，明确的说，DS官方的FP8，和非官方的号称FP8（还有明说FP4），甚至硅基哪些INT8，一两轮对话就能用出差异来。

--【贰】--：

就看楼上unslowth的blog就有这部分权威内容了，或者让gpt从unslowth的blog里给你整理。他们在量化和文档分享方面真的很专业

--【叁】--：

供参考

unsloth.ai

Qwen3.5 GGUF Benchmarks | Unsloth Documentation

See how Unsloth Dynamic GGUFs perform + analysis of perplexity, KL divergence & MXFP4.

其他模型应该也有

如果有精力可以自己做eval测评，用商用模型评估量化效果，但这个纯纯 ai infra 工作

标签：人工智能

问题描述：

之前看了好几个评测视频，基本上都说Q8就没什么损失，

Q4不到10%，是真的这样吗？

有真实测试数据的介绍文章或者视频吗，谢谢佬友分享。

现在想用M5 macbook的 64G的，用用27b 和 30b的Q8量化，

等M5的mac studio再弄256或者512，这样还能配合远程使用。

网友解答：

--【壹】--：

作为ERP用户，明确的说，DS官方的FP8，和非官方的号称FP8（还有明说FP4），甚至硅基哪些INT8，一两轮对话就能用出差异来。

--【贰】--：

就看楼上unslowth的blog就有这部分权威内容了，或者让gpt从unslowth的blog里给你整理。他们在量化和文档分享方面真的很专业

--【叁】--：

供参考

unsloth.ai

Qwen3.5 GGUF Benchmarks | Unsloth Documentation

See how Unsloth Dynamic GGUFs perform + analysis of perplexity, KL divergence & MXFP4.

其他模型应该也有

如果有精力可以自己做eval测评，用商用模型评估量化效果，但这个纯纯 ai infra 工作

标签：人工智能