Qwen3.5-27B 100+Tokens 单卡本地运行！

2026-04-29 08:110阅读0评论SEO教程

问题描述：

众所周知，Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的超大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。

然而！ 在几天前，一个工作将最近的新解码算法给出了消费级显卡的实现，其宣称能直接在本地单张3090，实现上百 Token/s 甚至更高的解码速度，他就是 lucebox-hub。

其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。

关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是：

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的，3.6 应该也能跑，但是会慢一些，未测试各种 Qwen3.5-27B 的改版，理论上应该都是没差的。
新算法的速度是有较大波动的，对于不同 Prompt 场景的速度不同。
模型推理时需要 CPU 参与，甚至是 CPU 满载运行，当前项目实现中不可完全迁移到GPU。
我Windows需要在本地进行编译，需要 CUDA Toolkit、CMake、MSVC 等。

问题描述：

其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。

关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是：

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF 进行优化实现的，3.6 应该也能跑，但是会慢一些，未测试各种 Qwen3.5-27B 的改版，理论上应该都是没差的。
新算法的速度是有较大波动的，对于不同 Prompt 场景的速度不同。
模型推理时需要 CPU 参与，甚至是 CPU 满载运行，当前项目实现中不可完全迁移到GPU。
我Windows需要在本地进行编译，需要 CUDA Toolkit、CMake、MSVC 等。