本地大模型折腾 M1 MBP vs Windows 性能实测与困惑
- 内容介绍
- 文章标签
- 相关推荐
各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。
1. 我的设备现状与实测
目前手里主要有两台本子,但表现差异很大:
- 本子1:MacBook Pro M1 (32GB 统一内存)
- 方案:
llama.cpp - 最新尝试: Qwen3.6-35B-A3B-GGUF
- 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
- 方案:
- 本子2:Windows 笔记本 (64GB 内存)
- 方案: `llama.cpp`
- 最新尝试: Qwen3.6-27B
- 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。
不知道有没有佬友在研究这个方向的,大家交流一下
网友解答:--【壹】--:
槽点有点多… 一个一个说吧。
本子1:MacBook Pro M1 (32GB 统一内存)
M1 可没有 32G 统一内存,你应该说明是 M1 Pro 还是 M1 Max
虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊)
要么就是你没配置好(或者爆内存swap了),要么就是上下文太长,否则不可能这么慢。
- 最新尝试: Qwen3.6-27B
请注意,你在用一个 Dense 模型对比 Mac 跑的 MoE 模型,后者的激活只有 3B,这是显然不公平的。另外请说明笔记本的 CPU 和 GPU(若有),如果去跑 A3B MoE ,就算纯 CPU 也不会离谱到那么慢(按你的描述应该 <2 token/s)
--【贰】--:
这,搞大模型得搞点好的显卡啊,显卡可以没有那么新,但是显存得大。
--【叁】--:
所以说不是macbook的话,内存大也没啥用,毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊 :(
--【肆】--:
qwen3.6 27B BF16才55GB,肯定能放进去64G,主要是苹果是统一内存,速度快多了,模型权重越大,传输速度要求就越大,显卡一般能达到600+GB/s
--【伍】--:
现在显卡的价钱也太离谱了,关键是我自己也不太喜欢台式机。还是找个本子方便
--【陆】--:
macbookpro那台基本上能用,就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6
--【柒】--:
内存带宽差的多,m1能有200GB/s,ddr5才七八十
--【捌】--:
非台式机的话,像 AMD 的 AiMAX395 这种机器,统一内存,类似Mac mini,统一内存可以上到128G。实测下来跑一个Qwen3-Coder-Next量化后 50G 左右的模型,缓存预留大些,速度很不错。
各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。
1. 我的设备现状与实测
目前手里主要有两台本子,但表现差异很大:
- 本子1:MacBook Pro M1 (32GB 统一内存)
- 方案:
llama.cpp - 最新尝试: Qwen3.6-35B-A3B-GGUF
- 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
- 方案:
- 本子2:Windows 笔记本 (64GB 内存)
- 方案: `llama.cpp`
- 最新尝试: Qwen3.6-27B
- 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。
不知道有没有佬友在研究这个方向的,大家交流一下
网友解答:--【壹】--:
槽点有点多… 一个一个说吧。
本子1:MacBook Pro M1 (32GB 统一内存)
M1 可没有 32G 统一内存,你应该说明是 M1 Pro 还是 M1 Max
虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊)
要么就是你没配置好(或者爆内存swap了),要么就是上下文太长,否则不可能这么慢。
- 最新尝试: Qwen3.6-27B
请注意,你在用一个 Dense 模型对比 Mac 跑的 MoE 模型,后者的激活只有 3B,这是显然不公平的。另外请说明笔记本的 CPU 和 GPU(若有),如果去跑 A3B MoE ,就算纯 CPU 也不会离谱到那么慢(按你的描述应该 <2 token/s)
--【贰】--:
这,搞大模型得搞点好的显卡啊,显卡可以没有那么新,但是显存得大。
--【叁】--:
所以说不是macbook的话,内存大也没啥用,毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊 :(
--【肆】--:
qwen3.6 27B BF16才55GB,肯定能放进去64G,主要是苹果是统一内存,速度快多了,模型权重越大,传输速度要求就越大,显卡一般能达到600+GB/s
--【伍】--:
现在显卡的价钱也太离谱了,关键是我自己也不太喜欢台式机。还是找个本子方便
--【陆】--:
macbookpro那台基本上能用,就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6
--【柒】--:
内存带宽差的多,m1能有200GB/s,ddr5才七八十
--【捌】--:
非台式机的话,像 AMD 的 AiMAX395 这种机器,统一内存,类似Mac mini,统一内存可以上到128G。实测下来跑一个Qwen3-Coder-Next量化后 50G 左右的模型,缓存预留大些,速度很不错。

