受够了,开始跑本地模型
- 内容介绍
- 文章标签
- 相关推荐
RT,苦于没有token,干脆,不干了
直接怒下单
M5 Pro,18+20,64G+1T,想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
各位佬有啥指导性意见,或者有什么好的模型可以推荐的?
网友解答:--【壹】--:
刚好就可以试试这个项目了
X好文分享,技术类谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46
--【贰】--:
装满血版,512G内存那款,原地起飞!
--【叁】--:
佬买的是macbook pro吗?
--【肆】--:
事实就是本地模型就是比在线的SOTA模型差很多,参数规模上就比不上,属于超出玩具水平,但实际生产力瓶颈
--【伍】--:
我的设备部署不了,所以觉得35B好
--【陆】--:
有点费钱哈哈
--【柒】--:
千问真的很垃圾啊。 那还不如用英伟达免费的慢慢熬
--【捌】--:
你这个帖子太欢乐了
个人算力捅破天也连渣渣都算不上
--【玖】--:
m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)
所以說真的想跑本地大模型的,買m4多的錢買台式nvidia還比較划算
真的要編程3.5-27b的比較合適點。。。
但是跟市面上的御三家,等級還是差太多太多
--【拾】--:
英伟达太慢了有点。。。
--【拾壹】--:
感觉你马上又要受够了
--【拾贰】--:
小模型只有qwen 表现最好吧
--【拾叁】--:
他们不是测过, A3B比较垃圾吗, 27B那个还好点。 一个是稠密模型,一个是稀疏模型
--【拾肆】--:
ollama 刚发的版:Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog
--【拾伍】--:
怎么说
--【拾陆】--:
qwen3.5目前没有良好的微调,性能全部不如原版
--【拾柒】--:
太杏擎了佬
--【拾捌】--:
一直觉得在“哼哧哼哧工作的”机器上,再开编辑器,是虐待它。要不要等 studio?
另外,对比一下 token 速度,现在看 omlx 上 token 速度.
image2050×734 83.5 KB
Token Plan 的速率在 60+
--【拾玖】--:
感觉你马上又要受够了
因为本地模型性能真的很弱
RT,苦于没有token,干脆,不干了
直接怒下单
M5 Pro,18+20,64G+1T,想搞一搞蒸馏版的Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
各位佬有啥指导性意见,或者有什么好的模型可以推荐的?
网友解答:--【壹】--:
刚好就可以试试这个项目了
X好文分享,技术类谷歌内存论文破解 https://x.com/k1rallik/status/2038567965465944491?s=46
--【贰】--:
装满血版,512G内存那款,原地起飞!
--【叁】--:
佬买的是macbook pro吗?
--【肆】--:
事实就是本地模型就是比在线的SOTA模型差很多,参数规模上就比不上,属于超出玩具水平,但实际生产力瓶颈
--【伍】--:
我的设备部署不了,所以觉得35B好
--【陆】--:
有点费钱哈哈
--【柒】--:
千问真的很垃圾啊。 那还不如用英伟达免费的慢慢熬
--【捌】--:
你这个帖子太欢乐了
个人算力捅破天也连渣渣都算不上
--【玖】--:
m5 pro a3b 4bit 也只有40 t/s ? (3090 最少能跑50 t/s以上)
所以說真的想跑本地大模型的,買m4多的錢買台式nvidia還比較划算
真的要編程3.5-27b的比較合適點。。。
但是跟市面上的御三家,等級還是差太多太多
--【拾】--:
英伟达太慢了有点。。。
--【拾壹】--:
感觉你马上又要受够了
--【拾贰】--:
小模型只有qwen 表现最好吧
--【拾叁】--:
他们不是测过, A3B比较垃圾吗, 27B那个还好点。 一个是稠密模型,一个是稀疏模型
--【拾肆】--:
ollama 刚发的版:Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog
--【拾伍】--:
怎么说
--【拾陆】--:
qwen3.5目前没有良好的微调,性能全部不如原版
--【拾柒】--:
太杏擎了佬
--【拾捌】--:
一直觉得在“哼哧哼哧工作的”机器上,再开编辑器,是虐待它。要不要等 studio?
另外,对比一下 token 速度,现在看 omlx 上 token 速度.
image2050×734 83.5 KB
Token Plan 的速率在 60+
--【拾玖】--:
感觉你马上又要受够了
因为本地模型性能真的很弱

