Qwen3.5-27B 100+Tokens 单卡本地运行!

2026-04-29 08:112阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

非推广,纯分享,和下方参考视频、Github项目均无利益关系!

众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub

其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。

关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:

  1. lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
  2. 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同
  3. 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
  4. Windows需要在本地进行编译需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下,仅供参考,不是要求版本都完全一样
  • GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
  • Driver: 591.86
  • Visual Studio 2022 MSVC: 19.44.35222 x64
  • CMake: 3.29.2
  • CUDA Toolkit: v13.1

至于具体的编译部署方法,Clone下来后+装好必备的软件环境,直接用Codex即可,直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可,基本没什么需要修改的,项目中已经有OpenAI接口了。

基于 Windows 11 系统 + 4080-Super-32G 进行了测试,实测可以跑到几十到一百出头Token/s,已经比默认的llama.cpp快不少了,一些典型Prompt速度如下:

Prompt 正确 速度(Token/s)
AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) 74
有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法? 75
为什么北极熊不吃企鹅? 71
已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right). 106
给出红黑树的C++实现 - 91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了,也许有一定刷分的成分,但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了,逻辑推理上甚至能媲美 DeepSeek-R1,而随着解码算法的继续优化,相信将来本地大模型会更有价值。

参考视频:离谱,Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的?
部分测试题目来自:https://linux.do/t/topic/286836

网友解答:
--【壹】--:

按摩店的CPU吗? AMD处理器设计缺陷无解,CPU处理带宽大了就卡光标,无解。


--【贰】--:

我在跑本地模型的时候鼠标会卡顿,体验感非常差。。AI提供的方法完全解决不了


--【叁】--:

是用到了CPU跑嘛,按你的描述看可能是CPU满载了


--【肆】--:

之前放假了几天,正好deepseek的新模型和qwen3.6 27b这两个模型几乎同步放出来权重。

比较了一下deepseek v4 flash 和 qwen3.6 27b 这两个模型。

都是本地跑的,用的组里的服务器,qwen的27b模型用的fp8精度,deepseek v4 flash用的fp8+fv4的混合精度版本,都是官方提供的精度。

简单试了几个js css框架,然后测了几个数学问题,结果出乎意料,感觉qwen 27b 全面比deepseek的flash强啊,pro没部署,消耗的资源太高了。比了10来个问题,果断把deepseek的flash模型删了

讲真这个小模型我真觉得效果不错,不像是刷分刷起来的。


--【伍】--:

16gb vram的卡能跑起来吗?现在显卡太贵了


--【陆】--:

诚心发问,老卡能用吗?2080TI 22G版本


--【柒】--:

这个速度这么夸张吗?我现在就搞了一个27b 的,也好像就20~30。我明天去赶快试一下


--【捌】--:

正准备试试,这段时间对本地推理加速很感兴趣,已经尝试过各种方式加速推理,包括但不限于卸载优化、TurboQuant KV、本地编译硬件优化、各种不同量化版本等等,目前主要用llama.cpp,对Dflash/DDTree很馋,可惜llama.cpp对他们的支持都还处于早期阶段


--【玖】--:

16G还是建议35BA3B,用llama.cpp塞一部分到内存,27B的压力实在太大。


--【拾】--:

dflash把27b推到这个速度,真的是太牛逼了,27b本地实测比35ba3b还是强的


--【拾壹】--:

编译完试了一下,一模一样的显卡,速度比40-60的样子,还是差了一大截。估计是cpu内存不太行,5800x和ddr4确实太老了,前两年内存便宜的时候嫌麻烦没升级后悔啊。试了下3.6确实能跑,Qwen3.6-27B-UD-Q5_K_XL可以跑得起来。


--【拾贰】--:

CPU用的不多,GPU快跑满了,但是别人的5090也没这个情况出现,不知道是系统问题还是别的问题


--【拾叁】--:

很遗憾,官方支持架构为30系及以后,即 Ampere 架构起步。即使要在20系上运行,估计代价也不小。
image1916×1301 257 KB


--【拾肆】--:

是的,这个速度的实用性大了很多,27B 默认用 LMStudio 那些是不快的。

问题描述:

非推广,纯分享,和下方参考视频、Github项目均无利益关系!

众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的超大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub

其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。

关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:

  1. lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的,3.6 应该也能跑,但是会慢一些,未测试各种 Qwen3.5-27B 的改版,理论上应该都是没差的。
  2. 新算法的速度是有较大波动的,对于不同 Prompt 场景的速度不同
  3. 模型推理时需要 CPU 参与,甚至是 CPU 满载运行,当前项目实现中不可完全迁移到GPU。
  4. Windows需要在本地进行编译需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下,仅供参考,不是要求版本都完全一样
  • GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
  • Driver: 591.86
  • Visual Studio 2022 MSVC: 19.44.35222 x64
  • CMake: 3.29.2
  • CUDA Toolkit: v13.1

至于具体的编译部署方法,Clone下来后+装好必备的软件环境,直接用Codex即可,直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可,基本没什么需要修改的,项目中已经有OpenAI接口了。

基于 Windows 11 系统 + 4080-Super-32G 进行了测试,实测可以跑到几十到一百出头Token/s,已经比默认的llama.cpp快不少了,一些典型Prompt速度如下:

Prompt 正确 速度(Token/s)
AT89S51采用6MHz的晶振,定时2ms,如用定时器方式1时的初值(16进制数)应为多少?(写出计算过程) 74
有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法? 75
为什么北极熊不吃企鹅? 71
已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right). 106
给出红黑树的C++实现 - 91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了,也许有一定刷分的成分,但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了,逻辑推理上甚至能媲美 DeepSeek-R1,而随着解码算法的继续优化,相信将来本地大模型会更有价值。

参考视频:离谱,Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的?
部分测试题目来自:https://linux.do/t/topic/286836

网友解答:
--【壹】--:

按摩店的CPU吗? AMD处理器设计缺陷无解,CPU处理带宽大了就卡光标,无解。


--【贰】--:

我在跑本地模型的时候鼠标会卡顿,体验感非常差。。AI提供的方法完全解决不了


--【叁】--:

是用到了CPU跑嘛,按你的描述看可能是CPU满载了


--【肆】--:

之前放假了几天,正好deepseek的新模型和qwen3.6 27b这两个模型几乎同步放出来权重。

比较了一下deepseek v4 flash 和 qwen3.6 27b 这两个模型。

都是本地跑的,用的组里的服务器,qwen的27b模型用的fp8精度,deepseek v4 flash用的fp8+fv4的混合精度版本,都是官方提供的精度。

简单试了几个js css框架,然后测了几个数学问题,结果出乎意料,感觉qwen 27b 全面比deepseek的flash强啊,pro没部署,消耗的资源太高了。比了10来个问题,果断把deepseek的flash模型删了

讲真这个小模型我真觉得效果不错,不像是刷分刷起来的。


--【伍】--:

16gb vram的卡能跑起来吗?现在显卡太贵了


--【陆】--:

诚心发问,老卡能用吗?2080TI 22G版本


--【柒】--:

这个速度这么夸张吗?我现在就搞了一个27b 的,也好像就20~30。我明天去赶快试一下


--【捌】--:

正准备试试,这段时间对本地推理加速很感兴趣,已经尝试过各种方式加速推理,包括但不限于卸载优化、TurboQuant KV、本地编译硬件优化、各种不同量化版本等等,目前主要用llama.cpp,对Dflash/DDTree很馋,可惜llama.cpp对他们的支持都还处于早期阶段


--【玖】--:

16G还是建议35BA3B,用llama.cpp塞一部分到内存,27B的压力实在太大。


--【拾】--:

dflash把27b推到这个速度,真的是太牛逼了,27b本地实测比35ba3b还是强的


--【拾壹】--:

编译完试了一下,一模一样的显卡,速度比40-60的样子,还是差了一大截。估计是cpu内存不太行,5800x和ddr4确实太老了,前两年内存便宜的时候嫌麻烦没升级后悔啊。试了下3.6确实能跑,Qwen3.6-27B-UD-Q5_K_XL可以跑得起来。


--【拾贰】--:

CPU用的不多,GPU快跑满了,但是别人的5090也没这个情况出现,不知道是系统问题还是别的问题


--【拾叁】--:

很遗憾,官方支持架构为30系及以后,即 Ampere 架构起步。即使要在20系上运行,估计代价也不小。
image1916×1301 257 KB


--【拾肆】--:

是的,这个速度的实用性大了很多,27B 默认用 LMStudio 那些是不快的。