受够了,开始跑本地模型

2026-04-11 13:581阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

RT,苦于没有token,干脆,不干了

直接怒下单

M5 Pro,18+20,64G+1T,想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

各位佬有啥指导性意见,或者有什么好的模型可以推荐的?

网友解答:
--【壹】--:

刚好就可以试试这个项目了

X好文分享,技术类

谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46


--【贰】--:

装满血版,512G内存那款,原地起飞!


--【叁】--:

佬买的是macbook pro吗?


--【肆】--:

事实就是本地模型就是比在线的SOTA模型差很多,参数规模上就比不上,属于超出玩具水平,但实际生产力瓶颈


--【伍】--:

我的设备部署不了,所以觉得35B好


--【陆】--:

有点费钱哈哈


--【柒】--:

千问真的很垃圾啊。 那还不如用英伟达免费的慢慢熬


--【捌】--:

你这个帖子太欢乐了

个人算力捅破天也连渣渣都算不上


--【玖】--:

m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)

所以說真的想跑本地大模型的,買m4多的錢買台式nvidia還比較划算

真的要編程3.5-27b的比較合適點。。。

但是跟市面上的御三家,等級還是差太多太多


--【拾】--:

英伟达太慢了有点。。。


--【拾壹】--:

感觉你马上又要受够了


--【拾贰】--:

小模型只有qwen 表现最好吧


--【拾叁】--:

他们不是测过, A3B比较垃圾吗, 27B那个还好点。 一个是稠密模型,一个是稀疏模型


--【拾肆】--:

ollama 刚发的版:Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog


--【拾伍】--:

怎么说


--【拾陆】--:

qwen3.5目前没有良好的微调,性能全部不如原版


--【拾柒】--:

太杏擎了佬


--【拾捌】--:

一直觉得在“哼哧哼哧工作的”机器上,再开编辑器,是虐待它。要不要等 studio?

另外,对比一下 token 速度,现在看 omlx 上 token 速度.

image2050×734 83.5 KB

Token Plan 的速率在 60+


--【拾玖】--:

感觉你马上又要受够了

因为本地模型性能真的很弱

标签:纯水
问题描述:

RT,苦于没有token,干脆,不干了

直接怒下单

M5 Pro,18+20,64G+1T,想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

各位佬有啥指导性意见,或者有什么好的模型可以推荐的?

网友解答:
--【壹】--:

刚好就可以试试这个项目了

X好文分享,技术类

谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46


--【贰】--:

装满血版,512G内存那款,原地起飞!


--【叁】--:

佬买的是macbook pro吗?


--【肆】--:

事实就是本地模型就是比在线的SOTA模型差很多,参数规模上就比不上,属于超出玩具水平,但实际生产力瓶颈


--【伍】--:

我的设备部署不了,所以觉得35B好


--【陆】--:

有点费钱哈哈


--【柒】--:

千问真的很垃圾啊。 那还不如用英伟达免费的慢慢熬


--【捌】--:

你这个帖子太欢乐了

个人算力捅破天也连渣渣都算不上


--【玖】--:

m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)

所以說真的想跑本地大模型的,買m4多的錢買台式nvidia還比較划算

真的要編程3.5-27b的比較合適點。。。

但是跟市面上的御三家,等級還是差太多太多


--【拾】--:

英伟达太慢了有点。。。


--【拾壹】--:

感觉你马上又要受够了


--【拾贰】--:

小模型只有qwen 表现最好吧


--【拾叁】--:

他们不是测过, A3B比较垃圾吗, 27B那个还好点。 一个是稠密模型,一个是稀疏模型


--【拾肆】--:

ollama 刚发的版:Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog


--【拾伍】--:

怎么说


--【拾陆】--:

qwen3.5目前没有良好的微调,性能全部不如原版


--【拾柒】--:

太杏擎了佬


--【拾捌】--:

一直觉得在“哼哧哼哧工作的”机器上,再开编辑器,是虐待它。要不要等 studio?

另外,对比一下 token 速度,现在看 omlx 上 token 速度.

image2050×734 83.5 KB

Token Plan 的速率在 60+


--【拾玖】--:

感觉你马上又要受够了

因为本地模型性能真的很弱

标签:纯水