现在开源模型的16比特,Q8,Q6,Q4,效果损失到底多大?

2026-04-11 08:120阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

之前看了好几个评测视频,基本上都说Q8就没什么损失,

Q4不到10%,是真的这样吗?

有真实测试数据的介绍文章或者视频吗,谢谢佬友分享。

现在想用M5 macbook的 64G的,用用27b 和 30b的Q8量化,

等M5的mac studio再弄256或者512,这样还能配合远程使用。

网友解答:
--【壹】--:

作为ERP用户,明确的说,DS官方的FP8,和非官方的号称FP8(还有明说FP4),甚至硅基哪些INT8,一两轮对话就能用出差异来。


--【贰】--:

就看楼上unslowth的blog就有这部分权威内容了,或者让gpt从unslowth的blog里给你整理。他们在量化和文档分享方面真的很专业


--【叁】--:

供参考

unsloth.ai

Qwen3.5 GGUF Benchmarks | Unsloth Documentation

See how Unsloth Dynamic GGUFs perform + analysis of perplexity, KL divergence & MXFP4.

其他模型应该也有

如果有精力可以自己做eval测评,用商用模型评估量化效果,但这个纯纯 ai infra 工作