本地大模型折腾 M1 MBP vs Windows 性能实测与困惑

2026-04-29 11:043阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子,但表现差异很大:

  • 本子1:MacBook Pro M1 (32GB 统一内存)
    • 方案: llama.cpp
    • 最新尝试: Qwen3.6-35B-A3B-GGUF
    • 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
  • 本子2:Windows 笔记本 (64GB 内存)
    • 方案: `llama.cpp`
    • 最新尝试: Qwen3.6-27B
    • 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的,大家交流一下

网友解答:
--【壹】--:

槽点有点多… 一个一个说吧。

本子1:MacBook Pro M1 (32GB 统一内存)

M1 可没有 32G 统一内存,你应该说明是 M1 Pro 还是 M1 Max

虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊)

要么就是你没配置好(或者爆内存swap了),要么就是上下文太长,否则不可能这么慢。

  • 最新尝试: Qwen3.6-27B

请注意,你在用一个 Dense 模型对比 Mac 跑的 MoE 模型,后者的激活只有 3B,这是显然不公平的。另外请说明笔记本的 CPU 和 GPU(若有),如果去跑 A3B MoE ,就算纯 CPU 也不会离谱到那么慢(按你的描述应该 <2 token/s)


--【贰】--:

这,搞大模型得搞点好的显卡啊,显卡可以没有那么新,但是显存得大。


--【叁】--:

所以说不是macbook的话,内存大也没啥用,毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊 :(


--【肆】--:

qwen3.6 27B BF16才55GB,肯定能放进去64G,主要是苹果是统一内存,速度快多了,模型权重越大,传输速度要求就越大,显卡一般能达到600+GB/s


--【伍】--:

现在显卡的价钱也太离谱了,关键是我自己也不太喜欢台式机。还是找个本子方便


--【陆】--:

macbookpro那台基本上能用,就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6


--【柒】--:

内存带宽差的多,m1能有200GB/s,ddr5才七八十


--【捌】--:

非台式机的话,像 AMD 的 AiMAX395 这种机器,统一内存,类似Mac mini,统一内存可以上到128G。实测下来跑一个Qwen3-Coder-Next量化后 50G 左右的模型,缓存预留大些,速度很不错。

标签:人工智能
问题描述:

各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子,但表现差异很大:

  • 本子1:MacBook Pro M1 (32GB 统一内存)
    • 方案: llama.cpp
    • 最新尝试: Qwen3.6-35B-A3B-GGUF
    • 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
  • 本子2:Windows 笔记本 (64GB 内存)
    • 方案: `llama.cpp`
    • 最新尝试: Qwen3.6-27B
    • 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的,大家交流一下

网友解答:
--【壹】--:

槽点有点多… 一个一个说吧。

本子1:MacBook Pro M1 (32GB 统一内存)

M1 可没有 32G 统一内存,你应该说明是 M1 Pro 还是 M1 Max

虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊)

要么就是你没配置好(或者爆内存swap了),要么就是上下文太长,否则不可能这么慢。

  • 最新尝试: Qwen3.6-27B

请注意,你在用一个 Dense 模型对比 Mac 跑的 MoE 模型,后者的激活只有 3B,这是显然不公平的。另外请说明笔记本的 CPU 和 GPU(若有),如果去跑 A3B MoE ,就算纯 CPU 也不会离谱到那么慢(按你的描述应该 <2 token/s)


--【贰】--:

这,搞大模型得搞点好的显卡啊,显卡可以没有那么新,但是显存得大。


--【叁】--:

所以说不是macbook的话,内存大也没啥用,毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊 :(


--【肆】--:

qwen3.6 27B BF16才55GB,肯定能放进去64G,主要是苹果是统一内存,速度快多了,模型权重越大,传输速度要求就越大,显卡一般能达到600+GB/s


--【伍】--:

现在显卡的价钱也太离谱了,关键是我自己也不太喜欢台式机。还是找个本子方便


--【陆】--:

macbookpro那台基本上能用,就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6


--【柒】--:

内存带宽差的多,m1能有200GB/s,ddr5才七八十


--【捌】--:

非台式机的话,像 AMD 的 AiMAX395 这种机器,统一内存,类似Mac mini,统一内存可以上到128G。实测下来跑一个Qwen3-Coder-Next量化后 50G 左右的模型,缓存预留大些,速度很不错。

标签:人工智能