Qwen3.5-27B 100+Tokens 单卡本地运行！

2026-04-29 08:112阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

众所周知，Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的超大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而！ 在几天前，一个工作将最近的新解码算法给出了消费级显卡的实现，其宣称能直接在本地单张3090，实现上百 Token/s 甚至更高的解码速度，他就是 lucebox-hub。

其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。

关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是：

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的，3.6 应该也能跑，但是会慢一些，未测试各种 Qwen3.5-27B 的改版，理论上应该都是没差的。
新算法的速度是有较大波动的，对于不同 Prompt 场景的速度不同。
模型推理时需要 CPU 参与，甚至是 CPU 满载运行，当前项目实现中不可完全迁移到GPU。
我Windows需要在本地进行编译，需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下，仅供参考，不是要求版本都完全一样：

GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
Driver: 591.86
Visual Studio 2022 MSVC: 19.44.35222 x64
CMake: 3.29.2
CUDA Toolkit: v13.1

至于具体的编译部署方法，Clone下来后+装好必备的软件环境，直接用Codex即可，直接让Codex阅读README、在本地拉取所有需要的模型本体、python包然后编译即可，基本没什么需要修改的，项目中已经有OpenAI接口了。

基于 Windows 11 系统 + 4080-Super-32G 进行了测试，实测可以跑到几十到一百出头Token/s，已经比默认的llama.cpp快不少了，一些典型Prompt速度如下：

Prompt	正确	速度(Token/s)
AT89S51采用6MHz的晶振，定时2ms，如用定时器方式1时的初值（16进制数）应为多少？（写出计算过程）		74
有 8 个人，分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上，每排有 4 个座位，共 8 个座位。相邻的定义是：若两个人坐在同一排并且座位编号相邻，则这两个人相邻。现要求 A 与 B 必须相邻，且 C 与 D 不相邻，问在上述条件下共有多少种不同的排法？		75
为什么北极熊不吃企鹅？		71
已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right).		106
给出红黑树的C++实现	-	91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了，也许有一定刷分的成分，但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了，逻辑推理上甚至能媲美 DeepSeek-R1，而随着解码算法的继续优化，相信将来本地大模型会更有价值。

参考视频：离谱，Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的？
部分测试题目来自：https://linux.do/t/topic/286836

网友解答：

--【壹】--：

按摩店的CPU吗？ AMD处理器设计缺陷无解，CPU处理带宽大了就卡光标，无解。

--【贰】--：

我在跑本地模型的时候鼠标会卡顿，体验感非常差。。AI提供的方法完全解决不了

--【叁】--：

是用到了CPU跑嘛，按你的描述看可能是CPU满载了

--【肆】--：

之前放假了几天，正好deepseek的新模型和qwen3.6 27b这两个模型几乎同步放出来权重。

比较了一下deepseek v4 flash 和 qwen3.6 27b 这两个模型。

都是本地跑的，用的组里的服务器，qwen的27b模型用的fp8精度，deepseek v4 flash用的fp8+fv4的混合精度版本，都是官方提供的精度。

简单试了几个js css框架，然后测了几个数学问题，结果出乎意料，感觉qwen 27b 全面比deepseek的flash强啊，pro没部署，消耗的资源太高了。比了10来个问题，果断把deepseek的flash模型删了

讲真这个小模型我真觉得效果不错，不像是刷分刷起来的。

--【伍】--：

16gb vram的卡能跑起来吗？现在显卡太贵了

--【陆】--：

诚心发问，老卡能用吗？2080TI 22G版本

--【柒】--：

这个速度这么夸张吗？我现在就搞了一个27b 的，也好像就20~30。我明天去赶快试一下

--【捌】--：

正准备试试，这段时间对本地推理加速很感兴趣，已经尝试过各种方式加速推理，包括但不限于卸载优化、TurboQuant KV、本地编译硬件优化、各种不同量化版本等等，目前主要用llama.cpp，对Dflash/DDTree很馋，可惜llama.cpp对他们的支持都还处于早期阶段

--【玖】--：

16G还是建议35BA3B，用llama.cpp塞一部分到内存，27B的压力实在太大。

--【拾】--：

dflash把27b推到这个速度，真的是太牛逼了，27b本地实测比35ba3b还是强的

--【拾壹】--：

编译完试了一下，一模一样的显卡，速度比40-60的样子，还是差了一大截。估计是cpu内存不太行，5800x和ddr4确实太老了，前两年内存便宜的时候嫌麻烦没升级后悔啊。试了下3.6确实能跑，Qwen3.6-27B-UD-Q5_K_XL可以跑得起来。

--【拾贰】--：

CPU用的不多，GPU快跑满了，但是别人的5090也没这个情况出现，不知道是系统问题还是别的问题

--【拾叁】--：

很遗憾，官方支持架构为30系及以后，即 Ampere 架构起步。即使要在20系上运行，估计代价也不小。
image1916×1301 257 KB

--【拾肆】--：

是的，这个速度的实用性大了很多，27B 默认用 LMStudio 那些是不快的。

标签：人工智能软件开发纯水

问题描述：

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。

关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是：

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的，3.6 应该也能跑，但是会慢一些，未测试各种 Qwen3.5-27B 的改版，理论上应该都是没差的。
新算法的速度是有较大波动的，对于不同 Prompt 场景的速度不同。
模型推理时需要 CPU 参与，甚至是 CPU 满载运行，当前项目实现中不可完全迁移到GPU。
我Windows需要在本地进行编译，需要 CUDA Toolkit、CMake、MSVC 等。我实际编译成功环境版本如下，仅供参考，不是要求版本都完全一样：

GPU: NVIDIA GeForce RTX 4080 SUPER, compute capability 8.9
Driver: 591.86
Visual Studio 2022 MSVC: 19.44.35222 x64
CMake: 3.29.2
CUDA Toolkit: v13.1

基于 Windows 11 系统 + 4080-Super-32G 进行了测试，实测可以跑到几十到一百出头Token/s，已经比默认的llama.cpp快不少了，一些典型Prompt速度如下：

Prompt	正确	速度(Token/s)
AT89S51采用6MHz的晶振，定时2ms，如用定时器方式1时的初值（16进制数）应为多少？（写出计算过程）		74
有 8 个人，分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上，每排有 4 个座位，共 8 个座位。相邻的定义是：若两个人坐在同一排并且座位编号相邻，则这两个人相邻。现要求 A 与 B 必须相邻，且 C 与 D 不相邻，问在上述条件下共有多少种不同的排法？		75
为什么北极熊不吃企鹅？		71
已知函数 f\left( x\right) 在 x = 1 处可导且 \mathop{\lim }\limits_{{x \rightarrow 0}}\frac{f\left( {\mathrm{e}}^{{x}^{2}}\right) - {3f}\left( {1 + {\sin }^{2}x}\right) }{{x}^{2}} = 2 ,求 {f}^{\prime }\left( 1\right).		106
给出红黑树的C++实现	-	91

当前 Qwen3.5-27B 这种30B级别也开始有一定的应用价值了，也许有一定刷分的成分，但多种榜单都显示 Qwen3.5-27B 能碰一年前的超大模型了，逻辑推理上甚至能媲美 DeepSeek-R1，而随着解码算法的继续优化，相信将来本地大模型会更有价值。

参考视频：离谱，Qwen3.6 27B生成速度飙到184t/s,我是怎么做到的？
部分测试题目来自：https://linux.do/t/topic/286836

网友解答：

--【壹】--：

按摩店的CPU吗？ AMD处理器设计缺陷无解，CPU处理带宽大了就卡光标，无解。

--【贰】--：

我在跑本地模型的时候鼠标会卡顿，体验感非常差。。AI提供的方法完全解决不了

--【叁】--：

是用到了CPU跑嘛，按你的描述看可能是CPU满载了

--【肆】--：

之前放假了几天，正好deepseek的新模型和qwen3.6 27b这两个模型几乎同步放出来权重。

比较了一下deepseek v4 flash 和 qwen3.6 27b 这两个模型。

都是本地跑的，用的组里的服务器，qwen的27b模型用的fp8精度，deepseek v4 flash用的fp8+fv4的混合精度版本，都是官方提供的精度。

讲真这个小模型我真觉得效果不错，不像是刷分刷起来的。

--【伍】--：

16gb vram的卡能跑起来吗？现在显卡太贵了

--【陆】--：

诚心发问，老卡能用吗？2080TI 22G版本

--【柒】--：

这个速度这么夸张吗？我现在就搞了一个27b 的，也好像就20~30。我明天去赶快试一下

--【捌】--：

--【玖】--：

16G还是建议35BA3B，用llama.cpp塞一部分到内存，27B的压力实在太大。

--【拾】--：

dflash把27b推到这个速度，真的是太牛逼了，27b本地实测比35ba3b还是强的

--【拾壹】--：

--【拾贰】--：

CPU用的不多，GPU快跑满了，但是别人的5090也没这个情况出现，不知道是系统问题还是别的问题

--【拾叁】--：

很遗憾，官方支持架构为30系及以后，即 Ampere 架构起步。即使要在20系上运行，估计代价也不小。
image1916×1301 257 KB

--【拾肆】--：

是的，这个速度的实用性大了很多，27B 默认用 LMStudio 那些是不快的。

标签：人工智能软件开发纯水

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

相关推荐

非推广，纯分享，和下方参考视频、Github项目均无利益关系！

相关推荐