本地大模型折腾　M1 MBP vs Windows 性能实测与困惑

2026-04-29 11:043阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

各位佬友，最近各家云端 API 用量都在收紧，逼得我不得不把重心转回本地模型。折腾了一圈下来，发现里面的坑确实不少，发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子，但表现差异很大：

本子1：MacBook Pro M1 (32GB 统一内存)
- 方案： llama.cpp
- 最新尝试： Qwen3.6-35B-A3B-GGUF
- 体验： 虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊），但得益于 macOS 的统一内存架构 (Unified Memory)，显存和内存通用，跑 30B 级别的模型竟然还算稳定。
本子2：Windows 笔记本 (64GB 内存)
- 方案： ｀llama.cpp｀
- 最新尝试： Qwen3.6-27B
- 体验： 极其拉胯。本以为 64G 内存能起飞，结果发现如果没有顶级显存（显存没拉满），纯靠 CPU 推断，速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的，大家交流一下

网友解答：

--【壹】--：

槽点有点多… 一个一个说吧。

本子1：MacBook Pro M1 (32GB 统一内存)

M1 可没有 32G 统一内存，你应该说明是 M1 Pro 还是 M1 Max

虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊）

要么就是你没配置好（或者爆内存swap了），要么就是上下文太长，否则不可能这么慢。

最新尝试： Qwen3.6-27B

请注意，你在用一个 Dense 模型对比 Mac 跑的 MoE 模型，后者的激活只有 3B，这是显然不公平的。另外请说明笔记本的 CPU 和 GPU（若有），如果去跑 A3B MoE ，就算纯 CPU 也不会离谱到那么慢（按你的描述应该 <2 token/s）

--【贰】--：

这，搞大模型得搞点好的显卡啊，显卡可以没有那么新，但是显存得大。

--【叁】--：

所以说不是macbook的话，内存大也没啥用，毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊：（

--【肆】--：

qwen3.6 27B BF16才55GB，肯定能放进去64G，主要是苹果是统一内存，速度快多了，模型权重越大，传输速度要求就越大，显卡一般能达到600+GB/s

--【伍】--：

现在显卡的价钱也太离谱了，关键是我自己也不太喜欢台式机。还是找个本子方便

--【陆】--：

macbookpro那台基本上能用，就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6

--【柒】--：

内存带宽差的多，m1能有200GB/s，ddr5才七八十

--【捌】--：

非台式机的话，像 AMD 的 AiMAX395 这种机器，统一内存，类似Mac mini，统一内存可以上到128G。实测下来跑一个Qwen3-Coder-Next量化后 50G 左右的模型，缓存预留大些，速度很不错。

标签：人工智能

问题描述：

各位佬友，最近各家云端 API 用量都在收紧，逼得我不得不把重心转回本地模型。折腾了一圈下来，发现里面的坑确实不少，发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子，但表现差异很大：

本子1：MacBook Pro M1 (32GB 统一内存)
- 方案： llama.cpp
- 最新尝试： Qwen3.6-35B-A3B-GGUF
- 体验： 虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊），但得益于 macOS 的统一内存架构 (Unified Memory)，显存和内存通用，跑 30B 级别的模型竟然还算稳定。
本子2：Windows 笔记本 (64GB 内存)
- 方案： ｀llama.cpp｀
- 最新尝试： Qwen3.6-27B
- 体验： 极其拉胯。本以为 64G 内存能起飞，结果发现如果没有顶级显存（显存没拉满），纯靠 CPU 推断，速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的，大家交流一下

网友解答：

--【壹】--：

槽点有点多… 一个一个说吧。

本子1：MacBook Pro M1 (32GB 统一内存)

M1 可没有 32G 统一内存，你应该说明是 M1 Pro 还是 M1 Max

虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊）

要么就是你没配置好（或者爆内存swap了），要么就是上下文太长，否则不可能这么慢。

最新尝试： Qwen3.6-27B

--【贰】--：

这，搞大模型得搞点好的显卡啊，显卡可以没有那么新，但是显存得大。

--【叁】--：

所以说不是macbook的话，内存大也没啥用，毕竟CPU的瓶颈在那里。我看站里都没有几个真的研究本地部署的啊：（

--【肆】--：

qwen3.6 27B BF16才55GB，肯定能放进去64G，主要是苹果是统一内存，速度快多了，模型权重越大，传输速度要求就越大，显卡一般能达到600+GB/s

--【伍】--：

现在显卡的价钱也太离谱了，关键是我自己也不太喜欢台式机。还是找个本子方便

--【陆】--：

macbookpro那台基本上能用，就是慢点。不知道最新的M5 64G会不会能搭个QWEN3.6

--【柒】--：

内存带宽差的多，m1能有200GB/s，ddr5才七八十

--【捌】--：

标签：人工智能

1. 我的设备现状与实测

相关推荐

1. 我的设备现状与实测

相关推荐