本地大模型折腾　M1 MBP vs Windows 性能实测与困惑

2026-04-29 11:041阅读0评论SEO教程

问题描述：

各位佬友，最近各家云端 API 用量都在收紧，逼得我不得不把重心转回本地模型。折腾了一圈下来，发现里面的坑确实不少，发个帖跟大家交流下经验。

目前手里主要有两台本子，但表现差异很大：

本子1：MacBook Pro M1 (32GB 统一内存)
- 方案： llama.cpp
- 最新尝试： Qwen3.6-35B-A3B-GGUF
- 体验： 虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊），但得益于 macOS 的统一内存架构 (Unified Memory)，显存和内存通用，跑 30B 级别的模型竟然还算稳定。
本子2：Windows 笔记本 (64GB 内存)
- 方案： ｀llama.cpp｀
- 最新尝试： Qwen3.6-27B
- 体验： 极其拉胯。本以为 64G 内存能起飞，结果发现如果没有顶级显存（显存没拉满），纯靠 CPU 推断，速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的，大家交流一下

网友解答：

--【壹】--：

槽点有点多… 一个一个说吧。

问题描述：

各位佬友，最近各家云端 API 用量都在收紧，逼得我不得不把重心转回本地模型。折腾了一圈下来，发现里面的坑确实不少，发个帖跟大家交流下经验。

目前手里主要有两台本子，但表现差异很大：

本子1：MacBook Pro M1 (32GB 统一内存)
- 方案： llama.cpp
- 最新尝试： Qwen3.6-35B-A3B-GGUF
- 体验： 虽然 Token 输出速度不算飞起（勉强在 2-5 t/s 徘徊），但得益于 macOS 的统一内存架构 (Unified Memory)，显存和内存通用，跑 30B 级别的模型竟然还算稳定。
本子2：Windows 笔记本 (64GB 内存)
- 方案： ｀llama.cpp｀
- 最新尝试： Qwen3.6-27B
- 体验： 极其拉胯。本以为 64G 内存能起飞，结果发现如果没有顶级显存（显存没拉满），纯靠 CPU 推断，速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的，大家交流一下

网友解答：

--【壹】--：

槽点有点多… 一个一个说吧。