受够了，开始跑本地模型

2026-04-11 13:581阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

RT，苦于没有token，干脆，不干了

直接怒下单

M5 Pro，18+20，64G+1T，想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

各位佬有啥指导性意见，或者有什么好的模型可以推荐的？

网友解答：

--【壹】--：

刚好就可以试试这个项目了

X好文分享，技术类

谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46

--【贰】--：

装满血版，512G内存那款，原地起飞！

--【叁】--：

佬买的是macbook pro吗？

--【肆】--：

事实就是本地模型就是比在线的SOTA模型差很多，参数规模上就比不上，属于超出玩具水平，但实际生产力瓶颈

--【伍】--：

我的设备部署不了，所以觉得35B好

--【陆】--：

有点费钱哈哈

--【柒】--：

千问真的很垃圾啊。那还不如用英伟达免费的慢慢熬

--【捌】--：

你这个帖子太欢乐了

个人算力捅破天也连渣渣都算不上

--【玖】--：

m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)

所以說真的想跑本地大模型的，買m4多的錢買台式nvidia還比較划算

真的要編程3.5-27b的比較合適點。。。

但是跟市面上的御三家，等級還是差太多太多

--【拾】--：

英伟达太慢了有点。。。

--【拾壹】--：

感觉你马上又要受够了

--【拾贰】--：

小模型只有qwen 表现最好吧

--【拾叁】--：

他们不是测过， A3B比较垃圾吗， 27B那个还好点。一个是稠密模型，一个是稀疏模型

--【拾肆】--：

ollama 刚发的版：Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

--【拾伍】--：

怎么说

--【拾陆】--：

qwen3.5目前没有良好的微调,性能全部不如原版

--【拾柒】--：

太杏擎了佬

--【拾捌】--：

一直觉得在“哼哧哼哧工作的”机器上，再开编辑器，是虐待它。要不要等 studio?

另外，对比一下 token 速度，现在看 omlx 上 token 速度.

image2050×734 83.5 KB

Token Plan 的速率在 60+

--【拾玖】--：

感觉你马上又要受够了

因为本地模型性能真的很弱

标签：纯水

问题描述：

RT，苦于没有token，干脆，不干了

直接怒下单

M5 Pro，18+20，64G+1T，想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

各位佬有啥指导性意见，或者有什么好的模型可以推荐的？

网友解答：

--【壹】--：

刚好就可以试试这个项目了

X好文分享，技术类

谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46

--【贰】--：

装满血版，512G内存那款，原地起飞！

--【叁】--：

佬买的是macbook pro吗？

--【肆】--：

事实就是本地模型就是比在线的SOTA模型差很多，参数规模上就比不上，属于超出玩具水平，但实际生产力瓶颈

--【伍】--：

我的设备部署不了，所以觉得35B好

--【陆】--：

有点费钱哈哈

--【柒】--：

千问真的很垃圾啊。那还不如用英伟达免费的慢慢熬

--【捌】--：

你这个帖子太欢乐了

个人算力捅破天也连渣渣都算不上

--【玖】--：

m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)

所以說真的想跑本地大模型的，買m4多的錢買台式nvidia還比較划算

真的要編程3.5-27b的比較合適點。。。

但是跟市面上的御三家，等級還是差太多太多

--【拾】--：

英伟达太慢了有点。。。

--【拾壹】--：

感觉你马上又要受够了

--【拾贰】--：

小模型只有qwen 表现最好吧

--【拾叁】--：

他们不是测过， A3B比较垃圾吗， 27B那个还好点。一个是稠密模型，一个是稀疏模型

--【拾肆】--：

ollama 刚发的版：Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog

--【拾伍】--：

怎么说

--【拾陆】--：

qwen3.5目前没有良好的微调,性能全部不如原版

--【拾柒】--：

太杏擎了佬

--【拾捌】--：

一直觉得在“哼哧哼哧工作的”机器上，再开编辑器，是虐待它。要不要等 studio?

另外，对比一下 token 速度，现在看 omlx 上 token 速度.

image2050×734 83.5 KB

Token Plan 的速率在 60+

--【拾玖】--：

感觉你马上又要受够了

因为本地模型性能真的很弱

标签：纯水

相关推荐

相关推荐