海光K100显卡对量化模型兼容性
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
系统环境
- 系统: Kylin OS
- 芯片: 128H, Hygon C86 7390 2S * 64
- 显存: 128G, Hygon K100 DCU 64G * 2
- 内存: 500G
尝试情况
在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:
- GPTQ-Int4 量化版(不可用)
- 模型:
Qwen-2.5-Int4 - 结果:vLLM 的 GPTQ 实现依赖
bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用。
- 模型:
- AWQ 量化版(不可用)
- 模型:
qwen3-32B-AWQ - 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
- 模型:
- 全量精度模型(BF16 / FP16)
- 模型:
DeepSeek-R1-Distill-Qwen-14BBF16 - 结果:可正常加载并推理,稳定。
- 缺点:显存和算力消耗大,吞吐率不高。
- 模型:
问题描述:
系统环境
- 系统: Kylin OS
- 芯片: 128H, Hygon C86 7390 2S * 64
- 显存: 128G, Hygon K100 DCU 64G * 2
- 内存: 500G
尝试情况
在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:
- GPTQ-Int4 量化版(不可用)
- 模型:
Qwen-2.5-Int4 - 结果:vLLM 的 GPTQ 实现依赖
bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用。
- 模型:
- AWQ 量化版(不可用)
- 模型:
qwen3-32B-AWQ - 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
- 模型:
- 全量精度模型(BF16 / FP16)
- 模型:
DeepSeek-R1-Distill-Qwen-14BBF16 - 结果:可正常加载并推理,稳定。
- 缺点:显存和算力消耗大,吞吐率不高。
- 模型:

