实测: 接上次opus4.6蒸馏qwen3.5 27B本地部署 优化方案
- 内容介绍
- 文章标签
- 相关推荐
前情提要: 最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。 再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。 说干就干。最近 Hug…
上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~
1. 放弃LM Studio,改用OMLX
OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存
下载安装地址: https://omlx.ai/
2. 模型选择,mac用户 切记必须要选择 mlx类模型
mlx是mac 26年最新的优化方案,大幅度提升了 首字时间,不再罚站!!!
所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit
v3版本蒸馏了opus4.6的工具调用逻辑
3. 参数微调
Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好
必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB
配置好后,加载模型!
4. 工具测试
既然是opus蒸馏的模型,那还是配合cc效果最佳
在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~
image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB
5. 爬虫实战测试
https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装
image1340×1105 221 KB
image1340×1381 184 KB
最终耗时4分钟完成,来测试一把代码
在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容 返回他它
image830×149 22.4 KB
他自己打印了输出后来判断响应
image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB
最终耗时 10分钟~~
再测试一把代码,可以生产邮箱了~
image1340×737 57 KB
让我口头微调一下~
image1085×609 82.8 KB
进入cc自己测试阶段占用 我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB
再次耗时2分钟-35秒 大概 1分半
然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB
最终测试
image1340×737 101 KB
最终缓存率 已经达到了 每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB
总结
opus4.6本地写点小东西 完全没问题,并且没有道德限制
说实话 如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟
现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!
自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~
网友解答:--【壹】--: 求助为什么我的Omxl半天出不来一句话 开发调优
自己电脑跑 claude code、openclow 这种长上下文都很吃力的 你可以去跑这个测试 [image] 然后看TTFT (ms) 指标 例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s
没啥好办法 预填充就纯吃 gpu 性能
--【贰】--:
因为cc客户端自带了一大段系统提示词,看过缓存率了吗
--【叁】--: son0ma:
OMLX
老大弄个llama版本哦 我是Windows系统的!
--【肆】--:
佬,我用的m4max32g的,也用的oMLX本地部署的Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit,接入cherrystudio反应很快,但是接入cc就特别慢,有啥优化方案吗,接genma4-27b就稍微快些
--【伍】--:
有开思考模式吗? 能本地部署27b真的狠狠的羡慕了
--【陆】--:
佬友分享的不错,看起来确实可以的,可惜还是太贵了
--【柒】--:
我这3060 12g 加上windows 能跑不
--【捌】--:
看过了,确实有一定的关系,但有个很奇怪的问题,比如说qwen3.5-27b和gemma4-26b接入cc,两次相同对话测试,qwen要处理20多k的token,而gemma只用处理4k左右的token,gemma每秒可以处理1k左右token,qwen只有200不到,并且千问有时候生成进度到70%多就卡住了
--【玖】--:
这模型在读取大文件内容的时候是用脚本提取还是直接载入呢?gamma4让它从个大文件里读取一段代码直接爆上下文了,不懂提取
--【拾】--:
好的,谢佬,oMLX或者其它推理工具都是一次只能加载一个模型吧,比如我本地挂载了qwen和gemma,分别接入两个工具,几乎同时发送消息,后加载的模型会直接覆盖前面的,导致前面的消息要不直接卡住要不截流。
--【拾壹】--: 爱长草的云:
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX
omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。
--【拾贰】--:
很厉害,我自己在win跑了,很卡很卡很慢
--【拾叁】--:
8bit的内存占用是多少?佬有观察吗?想在自己的mini 64G上跑跑看
--【拾肆】--:
gamme是专家模型,每次只激活4b,qwen是27b全参与
--【拾伍】--:
前排支持佬友,这个机器配置确实很有实力了
--【拾陆】--:
我也是这个问题,cc里面用特别慢,直接curl很快。。。
--【拾柒】--:
Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别,喜欢过节日~
--【拾捌】--:
这个思路好好
看了我一眼16g的macmini m4,突然有冲动想把它换了
--【拾玖】--:
公网挂了梯子,走的hugingface渠道,下的挺快的。
前情提要: 最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。 再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。 [1] 一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。 说干就干。最近 Hug…
上次发帖实测用m5max本地部署opus4.6蒸馏qwen3.5 模型,最后碰到了缓存时效和系统提示词重复读取的问题,这两天抽空倒腾了一下,分享一下优化方案~
1. 放弃LM Studio,改用OMLX
OMLX专为mac优化,底层原生 mlx,可以让模型运行是最大程度优化和节省内存
下载安装地址: https://omlx.ai/
2. 模型选择,mac用户 切记必须要选择 mlx类模型
mlx是mac 26年最新的优化方案,大幅度提升了 首字时间,不再罚站!!!
所以模型必须选择 MLX-Qwopus3.5-27B-v3-8bit
v3版本蒸馏了opus4.6的工具调用逻辑
3. 参数微调
Temperature先选择0.3 因为用途是做开发,所以还是严谨一点好
必开TurboQuant KV Cache 这是M5的最大优势!!! KV可以缓存至SSD
image1247×1040 88.8 KB
image894×689 73 KB
image1241×1033 88.3 KB
配置好后,加载模型!
4. 工具测试
既然是opus蒸馏的模型,那还是配合cc效果最佳
在oMLX首页直接有快捷启动命令, 直接让我们的老朋友 cc-swtich 都不用上场了~
image1325×437 67.1 KB
image1340×1105 177 KB
image1439×678 68.6 KB
5. 爬虫实战测试
https://outlook.tw/ 网站是用来生成outlook.tw的临时邮箱,用go实现生产邮箱和查询邮件的api封装
image1340×1105 221 KB
image1340×1381 184 KB
最终耗时4分钟完成,来测试一把代码
在我没给 响应示例 的情况下,让它自己写,第一次失败,我将输出内容 返回他它
image830×149 22.4 KB
他自己打印了输出后来判断响应
image1340×1381 217 KB
image1315×741 133 KB
image1340×1381 193 KB
最终耗时 10分钟~~
再测试一把代码,可以生产邮箱了~
image1340×737 57 KB
让我口头微调一下~
image1085×609 82.8 KB
进入cc自己测试阶段占用 我所要求的35秒
image1340×1381 245 KB
image1340×1381 159 KB
再次耗时2分钟-35秒 大概 1分半
然后给刚刚生产的邮箱自己发送一条邮件,来跑一下查询来验证
image418×228 13.5 KB
最终测试
image1340×737 101 KB
最终缓存率 已经达到了 每次都把cc的系统提示词缓存进去了
image1332×671 63.2 KB
总结
opus4.6本地写点小东西 完全没问题,并且没有道德限制
说实话 如果我自己用古法编程的话,用go实现刚刚的逻辑,至少也得20分钟~30分钟
现在用本地模型实现的话,大概也要用15~20分钟左右, 但是! 但是!
自己可以摸鱼的时间更多了,我只需要微调和提供业务逻辑,剩下都在摸鱼~
网友解答:--【壹】--: 求助为什么我的Omxl半天出不来一句话 开发调优
自己电脑跑 claude code、openclow 这种长上下文都很吃力的 你可以去跑这个测试 [image] 然后看TTFT (ms) 指标 例如我这里就是 1024 上下文 prefill需要 1.58s 4096 上下文 prefill需要 5.81s 8192 上下文 prefill需要 14.2s
没啥好办法 预填充就纯吃 gpu 性能
--【贰】--:
因为cc客户端自带了一大段系统提示词,看过缓存率了吗
--【叁】--: son0ma:
OMLX
老大弄个llama版本哦 我是Windows系统的!
--【肆】--:
佬,我用的m4max32g的,也用的oMLX本地部署的Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX-4bit,接入cherrystudio反应很快,但是接入cc就特别慢,有啥优化方案吗,接genma4-27b就稍微快些
--【伍】--:
有开思考模式吗? 能本地部署27b真的狠狠的羡慕了
--【陆】--:
佬友分享的不错,看起来确实可以的,可惜还是太贵了
--【柒】--:
我这3060 12g 加上windows 能跑不
--【捌】--:
看过了,确实有一定的关系,但有个很奇怪的问题,比如说qwen3.5-27b和gemma4-26b接入cc,两次相同对话测试,qwen要处理20多k的token,而gemma只用处理4k左右的token,gemma每秒可以处理1k左右token,qwen只有200不到,并且千问有时候生成进度到70%多就卡住了
--【玖】--:
这模型在读取大文件内容的时候是用脚本提取还是直接载入呢?gamma4让它从个大文件里读取一段代码直接爆上下文了,不懂提取
--【拾】--:
好的,谢佬,oMLX或者其它推理工具都是一次只能加载一个模型吧,比如我本地挂载了qwen和gemma,分别接入两个工具,几乎同时发送消息,后加载的模型会直接覆盖前面的,导致前面的消息要不直接卡住要不截流。
--【拾壹】--: 爱长草的云:
Qwen3.5-27B-Claude-4.6-Opus-Distiled-MLX
omlx的默认下载很慢。。。不知道有啥可以加速的不啊。。。
--【拾贰】--:
很厉害,我自己在win跑了,很卡很卡很慢
--【拾叁】--:
8bit的内存占用是多少?佬有观察吗?想在自己的mini 64G上跑跑看
--【拾肆】--:
gamme是专家模型,每次只激活4b,qwen是27b全参与
--【拾伍】--:
前排支持佬友,这个机器配置确实很有实力了
--【拾陆】--:
我也是这个问题,cc里面用特别慢,直接curl很快。。。
--【拾柒】--:
Screenshot 2026-04-10 at 23.26.371542×2232 275 KB
Screenshot 2026-04-10 at 23.26.541538×2208 286 KB
这个模型有点特别,喜欢过节日~
--【拾捌】--:
这个思路好好
看了我一眼16g的macmini m4,突然有冲动想把它换了
--【拾玖】--:
公网挂了梯子,走的hugingface渠道,下的挺快的。

