海光K100显卡对量化模型兼容性
- 内容介绍
- 文章标签
- 相关推荐
系统环境
- 系统: Kylin OS
- 芯片: 128H, Hygon C86 7390 2S * 64
- 显存: 128G, Hygon K100 DCU 64G * 2
- 内存: 500G
尝试情况
在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:
- GPTQ-Int4 量化版(不可用)
- 模型:
Qwen-2.5-Int4 - 结果:vLLM 的 GPTQ 实现依赖
bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用。
- 模型:
- AWQ 量化版(不可用)
- 模型:
qwen3-32B-AWQ - 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
- 模型:
- 全量精度模型(BF16 / FP16)
- 模型:
DeepSeek-R1-Distill-Qwen-14BBF16 - 结果:可正常加载并推理,稳定。
- 缺点:显存和算力消耗大,吞吐率不高。
- 模型:
需求
有没有国产显卡部署经验丰富的佬呀, 这个卡支持哪些量化模型, 好像和海光K100AI显卡也不太一样.
网友解答:感谢你的阅读与回复.
--【壹】--:
国外硬件CUDA和那些算子以及依赖都经常打架, 别说国产去强兼了
--【贰】--:
硬件一流,软件 是硬伤。 国产对cuda的兼容感人
--【叁】--:
一开始就是看的光源社区,镜像环境资源都是,里面没啥K100的资料。
可能两张确实太少了,当时报的两张有128G应该够了,但是相比N卡这个128有点虚了。
--【肆】--:
想问问佬怎么解决, 或者什么途径或渠道寻找解决方案, 现在我也即将要面对这个环境, 大致情况有各种驱动还没有判断是否安装, 使用cpu计算等, 还没有到现场
--【伍】--:
你去光源社区看看,有没有兼容的镜像,或者问问售后,我们单位采购了一批海光的卡,自己解决不了的是可以叫售后来适配的
--【陆】--:
前阵子鼓捣过,我也没找到它支持的量化格式,且新版本的修改过的vllm还不开源,离离原上谱
--【柒】--:
海光的股价可是涨到天上去了,我朋友圈都出现海光的广告了
--【捌】--:
没办法, 单位都在采购他们硬件设备.
--【玖】--:
谢数据分享。
--【拾】--:
给你介绍一个开源 AI SSH 叫 NetCatty, 你连上服务器接入AI让AI判断以及相关文档告诉它. 因为国产情况太复杂了没办法复刻方案.
系统环境
- 系统: Kylin OS
- 芯片: 128H, Hygon C86 7390 2S * 64
- 显存: 128G, Hygon K100 DCU 64G * 2
- 内存: 500G
尝试情况
在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:
- GPTQ-Int4 量化版(不可用)
- 模型:
Qwen-2.5-Int4 - 结果:vLLM 的 GPTQ 实现依赖
bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用。
- 模型:
- AWQ 量化版(不可用)
- 模型:
qwen3-32B-AWQ - 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
- 模型:
- 全量精度模型(BF16 / FP16)
- 模型:
DeepSeek-R1-Distill-Qwen-14BBF16 - 结果:可正常加载并推理,稳定。
- 缺点:显存和算力消耗大,吞吐率不高。
- 模型:
需求
有没有国产显卡部署经验丰富的佬呀, 这个卡支持哪些量化模型, 好像和海光K100AI显卡也不太一样.
网友解答:感谢你的阅读与回复.
--【壹】--:
国外硬件CUDA和那些算子以及依赖都经常打架, 别说国产去强兼了
--【贰】--:
硬件一流,软件 是硬伤。 国产对cuda的兼容感人
--【叁】--:
一开始就是看的光源社区,镜像环境资源都是,里面没啥K100的资料。
可能两张确实太少了,当时报的两张有128G应该够了,但是相比N卡这个128有点虚了。
--【肆】--:
想问问佬怎么解决, 或者什么途径或渠道寻找解决方案, 现在我也即将要面对这个环境, 大致情况有各种驱动还没有判断是否安装, 使用cpu计算等, 还没有到现场
--【伍】--:
你去光源社区看看,有没有兼容的镜像,或者问问售后,我们单位采购了一批海光的卡,自己解决不了的是可以叫售后来适配的
--【陆】--:
前阵子鼓捣过,我也没找到它支持的量化格式,且新版本的修改过的vllm还不开源,离离原上谱
--【柒】--:
海光的股价可是涨到天上去了,我朋友圈都出现海光的广告了
--【捌】--:
没办法, 单位都在采购他们硬件设备.
--【玖】--:
谢数据分享。
--【拾】--:
给你介绍一个开源 AI SSH 叫 NetCatty, 你连上服务器接入AI让AI判断以及相关文档告诉它. 因为国产情况太复杂了没办法复刻方案.

