<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决 接入原生claude code缓存问题

2026-04-13 12:321阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

前情提要:

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。

原因主要有三点:

  • 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
  • 可以更灵活地调整内存上限
  • Ollama 虽然方便,但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。

既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。

21084×880 103 KB

53G,下载大约 10 分钟完成。

3. 运行模型

进入 Local Server → Running → Load Model

加载模型大概 3~5 秒。

31554×820 89.8 KB

服务开启后,记得去配置上下文长度。我这里直接拉满(大约 256k),再高其实没必要,反而更容易出现幻觉。

41547×475 50.5 KB

加载完毕后,在对话框里简单测一下:

51549×383 13.6 KB

6778×254 22.3 KB

然后直接 New Chat

7957×458 21 KB

4. 接入 Claude Code

既然是 Opus 4.6 蒸馏的模型,那我就想接入 Claude Code 试试。

主要目的是学习/复用 Claude Code 的工具调用方式——它在“怎么用工具”这件事上确实有不少值得借鉴的设计。

老朋友 cc-switch 登场。

因为是本地服务,密钥随便填(本地一般不会校验)。另外 LM Studio 的 server 支持 Anthropic 原生格式,所以配置起来非常顺滑。

81345×777 47.4 KB

保存之后,准备开炮。

5. 对话测试

91340×737 66 KB

很快就能发现:在 Claude Code 里同样的问题响应明显更慢。

  • 在 LM Studio 里问同样的问题(比如“你是什么模型”),耗时大概 11.96 秒
  • 在 Claude Code 里同样的请求,耗时能到 50 秒

我翻了下 server log,发现 Claude Code 客户端会附带一大坨“工具调用姿势”的系统提示词(tool use instructions)。

101051×668 26.8 KB

不过也能理解:既然想用它的工具调用方式,就得接受它的提示词开销。

对一些对时效不敏感的小任务来说,这点延迟也还行。

6. 任务实战

来个实际任务验证一下:

通过 IDA Pro MCP 分析某个 password 的加密算法。

111318×330 29.1 KB

我又看了下 log:Claude Code 自带的“工具调用提示词”太大,把上下文直接顶到了截断。

但我只是想调用 MCP 而已,怎么就被提示词塞满了?肯定哪里不对。

进一步复查后发现:我跑的是 bf16,在某些情况下会拖垮带宽(以及整体吞吐),所以决定换一个更轻的 8B 模型重新下载。

121298×147 7.61 KB

继续开炮:

131340×944 130 KB

这次输出明显正常了,不再出现截断。

继续观察后发现:大部分时间其实都花在“读/加载 Claude Code 的系统提示词”上。

141200×704 126 KB

查资料后发现,新版本在请求时会在请求头里加入一些每次都会变化的值,并且把这些值拼进提示词里,导致每次都要重新载入系统提示词(缓存命中率下降),整体就更慢。

于是我在 LM Studio 里直接对话验证一下:

151042×1097 70.9 KB

在 LM Studio 里一切正常。

最后我用一道我已知答案的题做最终测试,看看 Opus 4.6 蒸馏的 Qwen3.5 是否“能打”。
161210×1107 67 KB
171245×1158 94.4 KB
181179×1280 97.8 KB

对比已知答案:虽然有一点偏差,但经过一些“古法微调”(提示词/约束调整)后,我觉得 Opus 4.6 蒸馏的 Qwen3.5 在执行“时效要求不高、但需要工具/分析能力”的任务时,还是相当能打的。

最关键的是:不要钱。 本地做普通开发,的确是很强了,下一次尝试opus4.6蒸馏的谷歌最强开源模型 gemma4

最后结论,小任务绝对够用,重度任务使用 opus,轻度任务使用本地模型,甚至可以opus把重度任务拆封成多个小计划,让本地模型来执行,那真是大大节省了token,还提高了可玩性,再也不担心破甲问题了~~

网友解答:
--【壹】--:

同问, 这是什么原理>

居然改成openai格式就能用缓存了


--【贰】--:

谢谢佬,回头就去试试,这样的话感觉方便很多!


--【叁】--:

已解决 接入原生claude code缓存问题
image1236×920 125 KB

cc switch中使用OpenAl Chat Completions 并且开启代理
image360×128 7.66 KB
image1345×777 52.6 KB


--【肆】--:

用开源版本的CC改一下应该能解决掉,github应该有这种项目
而且本地的最大优势是并发,也就是/subagent或者并行的tool use


--【伍】--: son0ma:

新版本在请求时会在请求头里加入一些每次都会变化的值

怪不得都在喷缓存率降低了,真鸡贼啊这操作


--【陆】--:

感谢分享~我是 m3max128g,闲了也部署个玩玩


--【柒】--:

太及时了佬,正想测这个呢,这下直接吃现成的了


--【捌】--:

我用win11,8g显卡只能部署qwopus9b版本


--【玖】--:

image960×640 77.1 KB
最后附上一张 运行时的 内存占用~


--【拾】--: son0ma:

查资料后发现,新版本在请求时会在请求头里加入一些每次都会变化的值,并且把这些值拼进提示词里,导致每次都要重新载入系统提示词(缓存命中率下降),整体就更慢。

a​不干人事啊,这样第三方厂商的模型用claude code不全部丢缓存


--【拾壹】--:

感谢佬友的分享,另外我记得有个omlx的开源项目部署应该可以提高缓存,比lmstudio高效不少,也可以看看


--【拾贰】--:

image2516×1170 140 KB
我也这个配置 不知道为什么感觉变慢了之前跑 qwen 都有 59t 的


--【拾叁】--:

我也好奇原理是什么, 能否展开说说, 有没有参考文章?


--【拾肆】--:

佬, 听说是因为 MBP 的内存带宽不够导致 TPS 太低
你有这个感觉吗


--【拾伍】--:

感谢分享,意思是额外套一层openai后,claudecode就不会增加变化的值吗?


--【拾陆】--:

感谢干货贴分享,opus4.6蒸馏gemma4


--【拾柒】--:

谢谢分享,我这里也正使用LM Studio下载试试


--【拾捌】--:

a​就是这个样子的。给所有接入他家 claudecode的人使绊子,缓存灰飞烟灭


--【拾玖】--:

单卡5090 32G跑27B opus蒸馏版本的NVFP4版本,拿来做公司subagent专干脏活累活还是挺不错的,工具调用什么的都比较ok,能跑256K上下文(实际用不了这么高),测试过低上下文16并发最高800多token/s,用的vllm,实测vllm吊打sglang和其他工具,不过我是用cc配置的,也不排除它配置不正确

问题描述:

前情提要:

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。

原因主要有三点:

  • 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
  • 可以更灵活地调整内存上限
  • Ollama 虽然方便,但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。

既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。

21084×880 103 KB

53G,下载大约 10 分钟完成。

3. 运行模型

进入 Local Server → Running → Load Model

加载模型大概 3~5 秒。

31554×820 89.8 KB

服务开启后,记得去配置上下文长度。我这里直接拉满(大约 256k),再高其实没必要,反而更容易出现幻觉。

41547×475 50.5 KB

加载完毕后,在对话框里简单测一下:

51549×383 13.6 KB

6778×254 22.3 KB

然后直接 New Chat

7957×458 21 KB

4. 接入 Claude Code

既然是 Opus 4.6 蒸馏的模型,那我就想接入 Claude Code 试试。

主要目的是学习/复用 Claude Code 的工具调用方式——它在“怎么用工具”这件事上确实有不少值得借鉴的设计。

老朋友 cc-switch 登场。

因为是本地服务,密钥随便填(本地一般不会校验)。另外 LM Studio 的 server 支持 Anthropic 原生格式,所以配置起来非常顺滑。

81345×777 47.4 KB

保存之后,准备开炮。

5. 对话测试

91340×737 66 KB

很快就能发现:在 Claude Code 里同样的问题响应明显更慢。

  • 在 LM Studio 里问同样的问题(比如“你是什么模型”),耗时大概 11.96 秒
  • 在 Claude Code 里同样的请求,耗时能到 50 秒

我翻了下 server log,发现 Claude Code 客户端会附带一大坨“工具调用姿势”的系统提示词(tool use instructions)。

101051×668 26.8 KB

不过也能理解:既然想用它的工具调用方式,就得接受它的提示词开销。

对一些对时效不敏感的小任务来说,这点延迟也还行。

6. 任务实战

来个实际任务验证一下:

通过 IDA Pro MCP 分析某个 password 的加密算法。

111318×330 29.1 KB

我又看了下 log:Claude Code 自带的“工具调用提示词”太大,把上下文直接顶到了截断。

但我只是想调用 MCP 而已,怎么就被提示词塞满了?肯定哪里不对。

进一步复查后发现:我跑的是 bf16,在某些情况下会拖垮带宽(以及整体吞吐),所以决定换一个更轻的 8B 模型重新下载。

121298×147 7.61 KB

继续开炮:

131340×944 130 KB

这次输出明显正常了,不再出现截断。

继续观察后发现:大部分时间其实都花在“读/加载 Claude Code 的系统提示词”上。

141200×704 126 KB

查资料后发现,新版本在请求时会在请求头里加入一些每次都会变化的值,并且把这些值拼进提示词里,导致每次都要重新载入系统提示词(缓存命中率下降),整体就更慢。

于是我在 LM Studio 里直接对话验证一下:

151042×1097 70.9 KB

在 LM Studio 里一切正常。

最后我用一道我已知答案的题做最终测试,看看 Opus 4.6 蒸馏的 Qwen3.5 是否“能打”。
161210×1107 67 KB
171245×1158 94.4 KB
181179×1280 97.8 KB

对比已知答案:虽然有一点偏差,但经过一些“古法微调”(提示词/约束调整)后,我觉得 Opus 4.6 蒸馏的 Qwen3.5 在执行“时效要求不高、但需要工具/分析能力”的任务时,还是相当能打的。

最关键的是:不要钱。 本地做普通开发,的确是很强了,下一次尝试opus4.6蒸馏的谷歌最强开源模型 gemma4

最后结论,小任务绝对够用,重度任务使用 opus,轻度任务使用本地模型,甚至可以opus把重度任务拆封成多个小计划,让本地模型来执行,那真是大大节省了token,还提高了可玩性,再也不担心破甲问题了~~

网友解答:
--【壹】--:

同问, 这是什么原理>

居然改成openai格式就能用缓存了


--【贰】--:

谢谢佬,回头就去试试,这样的话感觉方便很多!


--【叁】--:

已解决 接入原生claude code缓存问题
image1236×920 125 KB

cc switch中使用OpenAl Chat Completions 并且开启代理
image360×128 7.66 KB
image1345×777 52.6 KB


--【肆】--:

用开源版本的CC改一下应该能解决掉,github应该有这种项目
而且本地的最大优势是并发,也就是/subagent或者并行的tool use


--【伍】--: son0ma:

新版本在请求时会在请求头里加入一些每次都会变化的值

怪不得都在喷缓存率降低了,真鸡贼啊这操作


--【陆】--:

感谢分享~我是 m3max128g,闲了也部署个玩玩


--【柒】--:

太及时了佬,正想测这个呢,这下直接吃现成的了


--【捌】--:

我用win11,8g显卡只能部署qwopus9b版本


--【玖】--:

image960×640 77.1 KB
最后附上一张 运行时的 内存占用~


--【拾】--: son0ma:

查资料后发现,新版本在请求时会在请求头里加入一些每次都会变化的值,并且把这些值拼进提示词里,导致每次都要重新载入系统提示词(缓存命中率下降),整体就更慢。

a​不干人事啊,这样第三方厂商的模型用claude code不全部丢缓存


--【拾壹】--:

感谢佬友的分享,另外我记得有个omlx的开源项目部署应该可以提高缓存,比lmstudio高效不少,也可以看看


--【拾贰】--:

image2516×1170 140 KB
我也这个配置 不知道为什么感觉变慢了之前跑 qwen 都有 59t 的


--【拾叁】--:

我也好奇原理是什么, 能否展开说说, 有没有参考文章?


--【拾肆】--:

佬, 听说是因为 MBP 的内存带宽不够导致 TPS 太低
你有这个感觉吗


--【拾伍】--:

感谢分享,意思是额外套一层openai后,claudecode就不会增加变化的值吗?


--【拾陆】--:

感谢干货贴分享,opus4.6蒸馏gemma4


--【拾柒】--:

谢谢分享,我这里也正使用LM Studio下载试试


--【拾捌】--:

a​就是这个样子的。给所有接入他家 claudecode的人使绊子,缓存灰飞烟灭


--【拾玖】--:

单卡5090 32G跑27B opus蒸馏版本的NVFP4版本,拿来做公司subagent专干脏活累活还是挺不错的,工具调用什么的都比较ok,能跑256K上下文(实际用不了这么高),测试过低上下文16并发最高800多token/s,用的vllm,实测vllm吊打sglang和其他工具,不过我是用cc配置的,也不排除它配置不正确