Qwen3.5-27B 100+Tokens 单卡本地运行!

2026-04-29 08:110阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

非推广,纯分享,和下方参考视频、Github项目均无利益关系!

众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub

其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。

关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:

  1. lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
  2. 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同
  3. 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
  4. Windows需要在本地进行编译需要 CUDA Toolkit、CMake、MSVC 等。
阅读全文
问题描述:

非推广,纯分享,和下方参考视频、Github项目均无利益关系!

众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub

其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。

关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:

  1. lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
  2. 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同
  3. 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
  4. Windows需要在本地进行编译需要 CUDA Toolkit、CMake、MSVC 等。
阅读全文