实测: 接上次opus4.6蒸馏qwen3.5 27B本地部署优化方案

2026-04-13 12:031阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述： <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决接入原生claude code缓存问题开发调优

前情提要：最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。说干就干。最近 Hug…

上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~

1. 放弃LM Studio,改用OMLX

OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存

下载安装地址: https://omlx.ai/

2. 模型选择,mac用户切记必须要选择 mlx类模型

mlx是mac 26年最新的优化方案,大幅度提升了首字时间,不再罚站!!!

所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit

v3版本蒸馏了opus4.6的工具调用逻辑

3. 参数微调

Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好

必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB

配置好后,加载模型!

4. 工具测试

既然是opus蒸馏的模型,那还是配合cc效果最佳

在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~

image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB

5. 爬虫实战测试

https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装

image1340×1105 221 KB

image1340×1381 184 KB

最终耗时4分钟完成,来测试一把代码

在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容返回他它

image830×149 22.4 KB

他自己打印了输出后来判断响应

image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB

最终耗时 10分钟~~

再测试一把代码,可以生产邮箱了~
image1340×737 57 KB

让我口头微调一下~
image1085×609 82.8 KB

进入cc自己测试阶段占用我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB

再次耗时2分钟-35秒大概 1分半

然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB

最终测试

image1340×737 101 KB

最终缓存率已经达到了每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB

总结

opus4.6本地写点小东西完全没问题,并且没有道德限制

说实话如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟

现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!

自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~

网友解答：

--【壹】--： 求助为什么我的Omxl半天出不来一句话开发调优

自己电脑跑 claude code、openclow 这种长上下文都很吃力的你可以去跑这个测试 [image] 然后看TTFT (ms) 指标例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s

没啥好办法预填充就纯吃 gpu 性能

--【贰】--：

因为cc客户端自带了一大段系统提示词，看过缓存率了吗

--【叁】--： son0ma:

OMLX

老大弄个llama版本哦我是Windows系统的！

--【肆】--：

佬，我用的m4max32g的，也用的oMLX本地部署的Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit，接入cherrystudio反应很快，但是接入cc就特别慢，有啥优化方案吗，接genma4-27b就稍微快些

--【伍】--：

有开思考模式吗？能本地部署27b真的狠狠的羡慕了

--【陆】--：

佬友分享的不错，看起来确实可以的，可惜还是太贵了

--【柒】--：

我这3060 12g 加上windows 能跑不

--【捌】--：

看过了，确实有一定的关系，但有个很奇怪的问题，比如说qwen3.5-27b和gemma4-26b接入cc，两次相同对话测试，qwen要处理20多k的token，而gemma只用处理4k左右的token，gemma每秒可以处理1k左右token，qwen只有200不到，并且千问有时候生成进度到70％多就卡住了

--【玖】--：

这模型在读取大文件内容的时候是用脚本提取还是直接载入呢？gamma4让它从个大文件里读取一段代码直接爆上下文了，不懂提取

--【拾】--：

好的，谢佬，oMLX或者其它推理工具都是一次只能加载一个模型吧，比如我本地挂载了qwen和gemma，分别接入两个工具，几乎同时发送消息，后加载的模型会直接覆盖前面的，导致前面的消息要不直接卡住要不截流。

--【拾壹】--： 爱长草的云:

Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX

omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。

--【拾贰】--：

很厉害，我自己在win跑了，很卡很卡很慢

--【拾叁】--：

8bit的内存占用是多少？佬有观察吗？想在自己的mini 64G上跑跑看

--【拾肆】--：

gamme是专家模型,每次只激活4b,qwen是27b全参与

--【拾伍】--：

前排支持佬友，这个机器配置确实很有实力了

--【拾陆】--：

我也是这个问题，cc里面用特别慢，直接curl很快。。。

--【拾柒】--：

Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别，喜欢过节日~

--【拾捌】--：

这个思路好好
看了我一眼16g的macmini m4，突然有冲动想把它换了

--【拾玖】--：

公网挂了梯子，走的hugingface渠道，下的挺快的。

标签：人工智能快问快答纯水

问题描述： <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决接入原生claude code缓存问题开发调优

前情提要：最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。说干就干。最近 Hug…

上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~

1. 放弃LM Studio,改用OMLX

OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存

下载安装地址: https://omlx.ai/

2. 模型选择,mac用户切记必须要选择 mlx类模型

mlx是mac 26年最新的优化方案,大幅度提升了首字时间,不再罚站!!!

所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit

v3版本蒸馏了opus4.6的工具调用逻辑

3. 参数微调

Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好

必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB

配置好后,加载模型!

4. 工具测试

既然是opus蒸馏的模型,那还是配合cc效果最佳

在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~

image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB

5. 爬虫实战测试

https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装

image1340×1105 221 KB

image1340×1381 184 KB

最终耗时4分钟完成,来测试一把代码

在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容返回他它

image830×149 22.4 KB

他自己打印了输出后来判断响应

image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB

最终耗时 10分钟~~

再测试一把代码,可以生产邮箱了~
image1340×737 57 KB

让我口头微调一下~
image1085×609 82.8 KB

进入cc自己测试阶段占用我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB

再次耗时2分钟-35秒大概 1分半

然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB

最终测试

image1340×737 101 KB

最终缓存率已经达到了每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB

总结

opus4.6本地写点小东西完全没问题,并且没有道德限制

说实话如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟

现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!

自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~

网友解答：

--【壹】--： 求助为什么我的Omxl半天出不来一句话开发调优

自己电脑跑 claude code、openclow 这种长上下文都很吃力的你可以去跑这个测试 [image] 然后看TTFT (ms) 指标例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s

没啥好办法预填充就纯吃 gpu 性能

--【贰】--：

因为cc客户端自带了一大段系统提示词，看过缓存率了吗

--【叁】--： son0ma:

OMLX

老大弄个llama版本哦我是Windows系统的！

--【肆】--：

--【伍】--：

有开思考模式吗？能本地部署27b真的狠狠的羡慕了

--【陆】--：

佬友分享的不错，看起来确实可以的，可惜还是太贵了

--【柒】--：

我这3060 12g 加上windows 能跑不

--【捌】--：

--【玖】--：

这模型在读取大文件内容的时候是用脚本提取还是直接载入呢？gamma4让它从个大文件里读取一段代码直接爆上下文了，不懂提取

--【拾】--：

--【拾壹】--： 爱长草的云:

Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX

omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。

--【拾贰】--：

很厉害，我自己在win跑了，很卡很卡很慢

--【拾叁】--：

8bit的内存占用是多少？佬有观察吗？想在自己的mini 64G上跑跑看

--【拾肆】--：

gamme是专家模型,每次只激活4b,qwen是27b全参与

--【拾伍】--：

前排支持佬友，这个机器配置确实很有实力了

--【拾陆】--：

我也是这个问题，cc里面用特别慢，直接curl很快。。。

--【拾柒】--：

Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别，喜欢过节日~

--【拾捌】--：

这个思路好好
看了我一眼16g的macmini m4，突然有冲动想把它换了

--【拾玖】--：

公网挂了梯子，走的hugingface渠道，下的挺快的。

标签：人工智能快问快答纯水

1. 放弃LM Studio,改用OMLX

2. 模型选择,mac用户 切记必须要选择 mlx类模型

3. 参数微调

4. 工具测试

5. 爬虫实战测试

总结

相关推荐

1. 放弃LM Studio,改用OMLX

2. 模型选择,mac用户 切记必须要选择 mlx类模型

3. 参数微调

4. 工具测试

5. 爬虫实战测试

总结

相关推荐

2. 模型选择,mac用户切记必须要选择 mlx类模型

2. 模型选择,mac用户切记必须要选择 mlx类模型