<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决接入原生claude code缓存问题

2026-04-13 12:321阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

前情提要：

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火，于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM，而不是 Ollama 的 MLX 版本。

原因主要有三点：

原生 MLX 性能更“干净”，大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便，但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意：一定要选 MLX 版本（Mac 上的加速优势就在这，不选等于白换）。

既然有 128G 内存，空间比较富裕，我直接选择 bf16 顶配。

21084×880 103 KB

53G，下载大约 10 分钟完成。

3. 运行模型

进入 Local Server → Running → Load Model。

加载模型大概 3～5 秒。

31554×820 89.8 KB

服务开启后，记得去配置上下文长度。我这里直接拉满（大约 256k），再高其实没必要，反而更容易出现幻觉。

41547×475 50.5 KB

加载完毕后，在对话框里简单测一下：

51549×383 13.6 KB

6778×254 22.3 KB

然后直接 New Chat：

7957×458 21 KB

4. 接入 Claude Code

既然是 Opus 4.6 蒸馏的模型，那我就想接入 Claude Code 试试。

主要目的是学习/复用 Claude Code 的工具调用方式——它在“怎么用工具”这件事上确实有不少值得借鉴的设计。

老朋友 cc-switch 登场。

因为是本地服务，密钥随便填（本地一般不会校验）。另外 LM Studio 的 server 支持 Anthropic 原生格式，所以配置起来非常顺滑。

81345×777 47.4 KB

保存之后，准备开炮。

5. 对话测试

91340×737 66 KB

很快就能发现：在 Claude Code 里同样的问题响应明显更慢。

在 LM Studio 里问同样的问题（比如“你是什么模型”），耗时大概 11.96 秒
在 Claude Code 里同样的请求，耗时能到 50 秒

我翻了下 server log，发现 Claude Code 客户端会附带一大坨“工具调用姿势”的系统提示词（tool use instructions）。

101051×668 26.8 KB

不过也能理解：既然想用它的工具调用方式，就得接受它的提示词开销。

对一些对时效不敏感的小任务来说，这点延迟也还行。

6. 任务实战

来个实际任务验证一下：

通过 IDA Pro MCP 分析某个 password 的加密算法。

111318×330 29.1 KB

我又看了下 log：Claude Code 自带的“工具调用提示词”太大，把上下文直接顶到了截断。

但我只是想调用 MCP 而已，怎么就被提示词塞满了？肯定哪里不对。

进一步复查后发现：我跑的是 bf16，在某些情况下会拖垮带宽（以及整体吞吐），所以决定换一个更轻的 8B 模型重新下载。

121298×147 7.61 KB

继续开炮：

131340×944 130 KB

这次输出明显正常了，不再出现截断。

继续观察后发现：大部分时间其实都花在“读/加载 Claude Code 的系统提示词”上。

141200×704 126 KB

查资料后发现，新版本在请求时会在请求头里加入一些每次都会变化的值，并且把这些值拼进提示词里，导致每次都要重新载入系统提示词（缓存命中率下降），整体就更慢。

于是我在 LM Studio 里直接对话验证一下：

151042×1097 70.9 KB

在 LM Studio 里一切正常。

最后我用一道我已知答案的题做最终测试，看看 Opus 4.6 蒸馏的 Qwen3.5 是否“能打”。
161210×1107 67 KB
171245×1158 94.4 KB
181179×1280 97.8 KB

对比已知答案：虽然有一点偏差，但经过一些“古法微调”（提示词/约束调整）后，我觉得 Opus 4.6 蒸馏的 Qwen3.5 在执行“时效要求不高、但需要工具/分析能力”的任务时，还是相当能打的。

最关键的是：不要钱。本地做普通开发,的确是很强了,下一次尝试opus4.6蒸馏的谷歌最强开源模型 gemma4

最后结论,小任务绝对够用,重度任务使用 opus,轻度任务使用本地模型,甚至可以opus把重度任务拆封成多个小计划,让本地模型来执行,那真是大大节省了token,还提高了可玩性,再也不担心破甲问题了~~

网友解答：

--【壹】--：

同问, 这是什么原理>

居然改成openai格式就能用缓存了

--【贰】--：

谢谢佬，回头就去试试，这样的话感觉方便很多！

--【叁】--：

已解决接入原生claude code缓存问题
image1236×920 125 KB

cc switch中使用OpenAl Chat Completions 并且开启代理
image360×128 7.66 KB
image1345×777 52.6 KB

--【肆】--：

用开源版本的CC改一下应该能解决掉，github应该有这种项目
而且本地的最大优势是并发，也就是/subagent或者并行的tool use

--【伍】--： son0ma:

新版本在请求时会在请求头里加入一些每次都会变化的值

怪不得都在喷缓存率降低了，真鸡贼啊这操作

--【陆】--：

感谢分享～我是 m3max128g，闲了也部署个玩玩

--【柒】--：

太及时了佬，正想测这个呢，这下直接吃现成的了

--【捌】--：

我用win11，8g显卡只能部署qwopus9b版本

--【玖】--：

image960×640 77.1 KB
最后附上一张运行时的内存占用~

--【拾】--： son0ma:

查资料后发现，新版本在请求时会在请求头里加入一些每次都会变化的值，并且把这些值拼进提示词里，导致每次都要重新载入系统提示词（缓存命中率下降），整体就更慢。

a不干人事啊，这样第三方厂商的模型用claude code不全部丢缓存

--【拾壹】--：

感谢佬友的分享，另外我记得有个omlx的开源项目部署应该可以提高缓存，比lmstudio高效不少，也可以看看

--【拾贰】--：

image2516×1170 140 KB
我也这个配置不知道为什么感觉变慢了之前跑 qwen 都有 59t 的

--【拾叁】--：

我也好奇原理是什么，能否展开说说，有没有参考文章？

--【拾肆】--：

佬, 听说是因为 MBP 的内存带宽不够导致 TPS 太低
你有这个感觉吗

--【拾伍】--：

感谢分享，意思是额外套一层openai后，claudecode就不会增加变化的值吗？

--【拾陆】--：

感谢干货贴分享，opus4.6蒸馏gemma4

--【拾柒】--：

谢谢分享,我这里也正使用LM Studio下载试试

--【拾捌】--：

a就是这个样子的。给所有接入他家 claudecode的人使绊子，缓存灰飞烟灭

--【拾玖】--：

单卡5090 32G跑27B opus蒸馏版本的NVFP4版本，拿来做公司subagent专干脏活累活还是挺不错的，工具调用什么的都比较ok，能跑256K上下文（实际用不了这么高），测试过低上下文16并发最高800多token/s，用的vllm，实测vllm吊打sglang和其他工具，不过我是用cc配置的，也不排除它配置不正确

标签：人工智能纯水

问题描述：

前情提要：

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火，于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM，而不是 Ollama 的 MLX 版本。

原因主要有三点：

原生 MLX 性能更“干净”，大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便，但毕竟多了一层封装

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意：一定要选 MLX 版本（Mac 上的加速优势就在这，不选等于白换）。

既然有 128G 内存，空间比较富裕，我直接选择 bf16 顶配。

21084×880 103 KB

53G，下载大约 10 分钟完成。

3. 运行模型

进入 Local Server → Running → Load Model。

加载模型大概 3～5 秒。

31554×820 89.8 KB

服务开启后，记得去配置上下文长度。我这里直接拉满（大约 256k），再高其实没必要，反而更容易出现幻觉。

41547×475 50.5 KB

加载完毕后，在对话框里简单测一下：

51549×383 13.6 KB

6778×254 22.3 KB

然后直接 New Chat：

7957×458 21 KB

4. 接入 Claude Code

既然是 Opus 4.6 蒸馏的模型，那我就想接入 Claude Code 试试。

主要目的是学习/复用 Claude Code 的工具调用方式——它在“怎么用工具”这件事上确实有不少值得借鉴的设计。

老朋友 cc-switch 登场。

因为是本地服务，密钥随便填（本地一般不会校验）。另外 LM Studio 的 server 支持 Anthropic 原生格式，所以配置起来非常顺滑。

81345×777 47.4 KB

保存之后，准备开炮。

5. 对话测试

91340×737 66 KB

很快就能发现：在 Claude Code 里同样的问题响应明显更慢。

在 LM Studio 里问同样的问题（比如“你是什么模型”），耗时大概 11.96 秒
在 Claude Code 里同样的请求，耗时能到 50 秒

我翻了下 server log，发现 Claude Code 客户端会附带一大坨“工具调用姿势”的系统提示词（tool use instructions）。

101051×668 26.8 KB

不过也能理解：既然想用它的工具调用方式，就得接受它的提示词开销。

对一些对时效不敏感的小任务来说，这点延迟也还行。

6. 任务实战

来个实际任务验证一下：

通过 IDA Pro MCP 分析某个 password 的加密算法。

111318×330 29.1 KB

我又看了下 log：Claude Code 自带的“工具调用提示词”太大，把上下文直接顶到了截断。

但我只是想调用 MCP 而已，怎么就被提示词塞满了？肯定哪里不对。

进一步复查后发现：我跑的是 bf16，在某些情况下会拖垮带宽（以及整体吞吐），所以决定换一个更轻的 8B 模型重新下载。

121298×147 7.61 KB

继续开炮：

131340×944 130 KB

这次输出明显正常了，不再出现截断。

继续观察后发现：大部分时间其实都花在“读/加载 Claude Code 的系统提示词”上。

141200×704 126 KB

于是我在 LM Studio 里直接对话验证一下：

151042×1097 70.9 KB

在 LM Studio 里一切正常。

最后我用一道我已知答案的题做最终测试，看看 Opus 4.6 蒸馏的 Qwen3.5 是否“能打”。
161210×1107 67 KB
171245×1158 94.4 KB
181179×1280 97.8 KB

最关键的是：不要钱。本地做普通开发,的确是很强了,下一次尝试opus4.6蒸馏的谷歌最强开源模型 gemma4

网友解答：

--【壹】--：

同问, 这是什么原理>

居然改成openai格式就能用缓存了

--【贰】--：

谢谢佬，回头就去试试，这样的话感觉方便很多！

--【叁】--：

已解决接入原生claude code缓存问题
image1236×920 125 KB

cc switch中使用OpenAl Chat Completions 并且开启代理
image360×128 7.66 KB
image1345×777 52.6 KB

--【肆】--：

用开源版本的CC改一下应该能解决掉，github应该有这种项目
而且本地的最大优势是并发，也就是/subagent或者并行的tool use

--【伍】--： son0ma:

新版本在请求时会在请求头里加入一些每次都会变化的值

怪不得都在喷缓存率降低了，真鸡贼啊这操作

--【陆】--：

感谢分享～我是 m3max128g，闲了也部署个玩玩

--【柒】--：

太及时了佬，正想测这个呢，这下直接吃现成的了

--【捌】--：

我用win11，8g显卡只能部署qwopus9b版本

--【玖】--：

image960×640 77.1 KB
最后附上一张运行时的内存占用~

--【拾】--： son0ma:

查资料后发现，新版本在请求时会在请求头里加入一些每次都会变化的值，并且把这些值拼进提示词里，导致每次都要重新载入系统提示词（缓存命中率下降），整体就更慢。

a不干人事啊，这样第三方厂商的模型用claude code不全部丢缓存

--【拾壹】--：

感谢佬友的分享，另外我记得有个omlx的开源项目部署应该可以提高缓存，比lmstudio高效不少，也可以看看

--【拾贰】--：

image2516×1170 140 KB
我也这个配置不知道为什么感觉变慢了之前跑 qwen 都有 59t 的

--【拾叁】--：

我也好奇原理是什么，能否展开说说，有没有参考文章？

--【拾肆】--：

佬, 听说是因为 MBP 的内存带宽不够导致 TPS 太低
你有这个感觉吗

--【拾伍】--：

感谢分享，意思是额外套一层openai后，claudecode就不会增加变化的值吗？

--【拾陆】--：

感谢干货贴分享，opus4.6蒸馏gemma4

--【拾柒】--：

谢谢分享,我这里也正使用LM Studio下载试试

--【拾捌】--：

a就是这个样子的。给所有接入他家 claudecode的人使绊子，缓存灰飞烟灭

--【拾玖】--：

标签：人工智能纯水

1. 环境部署

2. 下载模型

3. 运行模型

4. 接入 Claude Code

5. 对话测试

6. 任务实战

相关推荐

1. 环境部署

2. 下载模型

3. 运行模型

4. 接入 Claude Code

5. 对话测试

6. 任务实战

相关推荐