海光K100显卡对量化模型兼容性

2026-04-11 10:180阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

系统环境

系统: Kylin OS
芯片: 128H, Hygon C86 7390 2S * 64
显存: 128G, Hygon K100 DCU 64G * 2
内存: 500G

尝试情况

在以上服务器，尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本：

GPTQ-Int4 量化版（不可用）
- 模型：Qwen-2.5-Int4
- 结果：vLLM 的 GPTQ 实现依赖 bitsandbytes，该库仅支持 CUDA，不支持 ROCm。不可用。
AWQ 量化版（不可用）
- 模型：qwen3-32B-AWQ
- 结果：模型可以正常加载，日志显示量化方案为 AWQ。但无法正常运行，正如社区反馈 vllm + rocm 几乎没法跑。
全量精度模型（BF16 / FP16）
- 模型：DeepSeek-R1-Distill-Qwen-14B BF16
- 结果：可正常加载并推理，稳定。
- 缺点：显存和算力消耗大，吞吐率不高。

标签：人工智能软件开发

问题描述：

系统环境

系统: Kylin OS
芯片: 128H, Hygon C86 7390 2S * 64
显存: 128G, Hygon K100 DCU 64G * 2
内存: 500G

尝试情况

在以上服务器，尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本：

GPTQ-Int4 量化版（不可用）
- 模型：Qwen-2.5-Int4
- 结果：vLLM 的 GPTQ 实现依赖 bitsandbytes，该库仅支持 CUDA，不支持 ROCm。不可用。
AWQ 量化版（不可用）
- 模型：qwen3-32B-AWQ
- 结果：模型可以正常加载，日志显示量化方案为 AWQ。但无法正常运行，正如社区反馈 vllm + rocm 几乎没法跑。
全量精度模型（BF16 / FP16）
- 模型：DeepSeek-R1-Distill-Qwen-14B BF16
- 结果：可正常加载并推理，稳定。
- 缺点：显存和算力消耗大，吞吐率不高。

标签：人工智能软件开发