海光K100显卡对量化模型兼容性

2026-04-11 10:180阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

系统环境

  • 系统: Kylin OS
  • 芯片: 128H, Hygon C86 7390 2S * 64
  • 显存: 128G, Hygon K100 DCU 64G * 2
  • 内存: 500G

尝试情况

在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:

  • GPTQ-Int4 量化版(不可用)
    • 模型:Qwen-2.5-Int4
    • 结果:vLLM 的 GPTQ 实现依赖 bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用
  • AWQ 量化版(不可用)
    • 模型:qwen3-32B-AWQ
    • 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
  • 全量精度模型(BF16 / FP16)
    • 模型:DeepSeek-R1-Distill-Qwen-14B BF16
    • 结果:可正常加载并推理,稳定。
    • 缺点:显存和算力消耗大,吞吐率不高。
阅读全文
问题描述:

系统环境

  • 系统: Kylin OS
  • 芯片: 128H, Hygon C86 7390 2S * 64
  • 显存: 128G, Hygon K100 DCU 64G * 2
  • 内存: 500G

尝试情况

在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:

  • GPTQ-Int4 量化版(不可用)
    • 模型:Qwen-2.5-Int4
    • 结果:vLLM 的 GPTQ 实现依赖 bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用
  • AWQ 量化版(不可用)
    • 模型:qwen3-32B-AWQ
    • 结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
  • 全量精度模型(BF16 / FP16)
    • 模型:DeepSeek-R1-Distill-Qwen-14B BF16
    • 结果:可正常加载并推理,稳定。
    • 缺点:显存和算力消耗大,吞吐率不高。
阅读全文