实测: 接上次opus4.6蒸馏qwen3.5 27B本地部署 优化方案

2026-04-13 12:031阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述: <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决 接入原生claude code缓存问题 开发调优
前情提要: 最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。 再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。 说干就干。最近 Hug…

上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~

1. 放弃LM Studio,改用OMLX

OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存

下载安装地址: https://omlx.ai/

2. 模型选择,mac用户 切记必须要选择 mlx类模型

mlx是mac 26年最新的优化方案,大幅度提升了 首字时间,不再罚站!!!

所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit

v3版本蒸馏了opus4.6的工具调用逻辑

3. 参数微调

Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好

必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB

配置好后,加载模型!

4. 工具测试

既然是opus蒸馏的模型,那还是配合cc效果最佳

在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~

image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB

5. 爬虫实战测试

https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装

image1340×1105 221 KB

image1340×1381 184 KB

最终耗时4分钟完成,来测试一把代码

在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容 返回他它

image830×149 22.4 KB

他自己打印了输出后来判断响应

image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB

最终耗时 10分钟~~

再测试一把代码,可以生产邮箱了~
image1340×737 57 KB

让我口头微调一下~
image1085×609 82.8 KB

进入cc自己测试阶段占用 我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB

再次耗时2分钟-35秒 大概 1分半

然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB

最终测试

image1340×737 101 KB

最终缓存率 已经达到了 每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB

总结

opus4.6本地写点小东西 完全没问题,并且没有道德限制

说实话 如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟

现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!

自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~

网友解答:
--【壹】--: 求助为什么我的Omxl半天出不来一句话 开发调优
自己电脑跑 claude code、openclow 这种长上下文都很吃力的 你可以去跑这个测试 [image] 然后看TTFT (ms) 指标 例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s

没啥好办法 预填充就纯吃 gpu 性能


--【贰】--:

因为cc客户端自带了一大段系统提示词,看过缓存率了吗


--【叁】--: son0ma:

OMLX

老大弄个llama版本哦 我是Windows系统的!


--【肆】--:

佬,我用的m4max32g的,也用的oMLX本地部署的Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit,接入cherrystudio反应很快,但是接入cc就特别慢,有啥优化方案吗,接genma4-27b就稍微快些


--【伍】--:

有开思考模式吗? 能本地部署27b真的狠狠的羡慕了


--【陆】--:

佬友分享的不错,看起来确实可以的,可惜还是太贵了


--【柒】--:

我这3060 12g 加上windows 能跑不


--【捌】--:

看过了,确实有一定的关系,但有个很奇怪的问题,比如说qwen3.5-27b和gemma4-26b接入cc,两次相同对话测试,qwen要处理20多k的token,而gemma只用处理4k左右的token,gemma每秒可以处理1k左右token,qwen只有200不到,并且千问有时候生成进度到70%多就卡住了


--【玖】--:

这模型在读取大文件内容的时候是用脚本提取还是直接载入呢?gamma4让它从个大文件里读取一段代码直接爆上下文了,不懂提取


--【拾】--:

好的,谢佬,oMLX或者其它推理工具都是一次只能加载一个模型吧,比如我本地挂载了qwen和gemma,分别接入两个工具,几乎同时发送消息,后加载的模型会直接覆盖前面的,导致前面的消息要不直接卡住要不截流。


--【拾壹】--: 爱长草的云:

Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX

omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。


--【拾贰】--:

很厉害,我自己在win跑了,很卡很卡很慢


--【拾叁】--:

8bit的内存占用是多少?佬有观察吗?想在自己的mini 64G上跑跑看


--【拾肆】--:

gamme是专家模型,每次只激活4b,qwen是27b全参与


--【拾伍】--:

前排支持佬友,这个机器配置确实很有实力了


--【拾陆】--:

我也是这个问题,cc里面用特别慢,直接curl很快。。。


--【拾柒】--:

Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别,喜欢过节日~


--【拾捌】--:

这个思路好好
看了我一眼16g的macmini m4,突然有冲动想把它换了


--【拾玖】--:

公网挂了梯子,走的hugingface渠道,下的挺快的。

问题描述: <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决 接入原生claude code缓存问题 开发调优
前情提要: 最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。 再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。 说干就干。最近 Hug…

上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~

1. 放弃LM Studio,改用OMLX

OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存

下载安装地址: https://omlx.ai/

2. 模型选择,mac用户 切记必须要选择 mlx类模型

mlx是mac 26年最新的优化方案,大幅度提升了 首字时间,不再罚站!!!

所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit

v3版本蒸馏了opus4.6的工具调用逻辑

3. 参数微调

Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好

必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB

配置好后,加载模型!

4. 工具测试

既然是opus蒸馏的模型,那还是配合cc效果最佳

在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~

image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB

5. 爬虫实战测试

https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装

image1340×1105 221 KB

image1340×1381 184 KB

最终耗时4分钟完成,来测试一把代码

在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容 返回他它

image830×149 22.4 KB

他自己打印了输出后来判断响应

image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB

最终耗时 10分钟~~

再测试一把代码,可以生产邮箱了~
image1340×737 57 KB

让我口头微调一下~
image1085×609 82.8 KB

进入cc自己测试阶段占用 我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB

再次耗时2分钟-35秒 大概 1分半

然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB

最终测试

image1340×737 101 KB

最终缓存率 已经达到了 每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB

总结

opus4.6本地写点小东西 完全没问题,并且没有道德限制

说实话 如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟

现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!

自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~

网友解答:
--【壹】--: 求助为什么我的Omxl半天出不来一句话 开发调优
自己电脑跑 claude code、openclow 这种长上下文都很吃力的 你可以去跑这个测试 [image] 然后看TTFT (ms) 指标 例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s

没啥好办法 预填充就纯吃 gpu 性能


--【贰】--:

因为cc客户端自带了一大段系统提示词,看过缓存率了吗


--【叁】--: son0ma:

OMLX

老大弄个llama版本哦 我是Windows系统的!


--【肆】--:

佬,我用的m4max32g的,也用的oMLX本地部署的Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit,接入cherrystudio反应很快,但是接入cc就特别慢,有啥优化方案吗,接genma4-27b就稍微快些


--【伍】--:

有开思考模式吗? 能本地部署27b真的狠狠的羡慕了


--【陆】--:

佬友分享的不错,看起来确实可以的,可惜还是太贵了


--【柒】--:

我这3060 12g 加上windows 能跑不


--【捌】--:

看过了,确实有一定的关系,但有个很奇怪的问题,比如说qwen3.5-27b和gemma4-26b接入cc,两次相同对话测试,qwen要处理20多k的token,而gemma只用处理4k左右的token,gemma每秒可以处理1k左右token,qwen只有200不到,并且千问有时候生成进度到70%多就卡住了


--【玖】--:

这模型在读取大文件内容的时候是用脚本提取还是直接载入呢?gamma4让它从个大文件里读取一段代码直接爆上下文了,不懂提取


--【拾】--:

好的,谢佬,oMLX或者其它推理工具都是一次只能加载一个模型吧,比如我本地挂载了qwen和gemma,分别接入两个工具,几乎同时发送消息,后加载的模型会直接覆盖前面的,导致前面的消息要不直接卡住要不截流。


--【拾壹】--: 爱长草的云:

Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX

omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。


--【拾贰】--:

很厉害,我自己在win跑了,很卡很卡很慢


--【拾叁】--:

8bit的内存占用是多少?佬有观察吗?想在自己的mini 64G上跑跑看


--【拾肆】--:

gamme是专家模型,每次只激活4b,qwen是27b全参与


--【拾伍】--:

前排支持佬友,这个机器配置确实很有实力了


--【拾陆】--:

我也是这个问题,cc里面用特别慢,直接curl很快。。。


--【拾柒】--:

Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别,喜欢过节日~


--【拾捌】--:

这个思路好好
看了我一眼16g的macmini m4,突然有冲动想把它换了


--【拾玖】--:

公网挂了梯子,走的hugingface渠道,下的挺快的。