本地大模型折腾 M1 MBP vs Windows 性能实测与困惑

2026-04-29 11:041阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子,但表现差异很大:

  • 本子1:MacBook Pro M1 (32GB 统一内存)
    • 方案: llama.cpp
    • 最新尝试: Qwen3.6-35B-A3B-GGUF
    • 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
  • 本子2:Windows 笔记本 (64GB 内存)
    • 方案: `llama.cpp`
    • 最新尝试: Qwen3.6-27B
    • 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的,大家交流一下

网友解答:
--【壹】--:

槽点有点多… 一个一个说吧。

阅读全文
标签:人工智能
问题描述:

各位佬友,最近各家云端 API 用量都在收紧,逼得我不得不把重心转回本地模型。折腾了一圈下来,发现里面的坑确实不少,发个帖跟大家交流下经验。

1. 我的设备现状与实测

目前手里主要有两台本子,但表现差异很大:

  • 本子1:MacBook Pro M1 (32GB 统一内存)
    • 方案: llama.cpp
    • 最新尝试: Qwen3.6-35B-A3B-GGUF
    • 体验: 虽然 Token 输出速度不算飞起(勉强在 2-5 t/s 徘徊),但得益于 macOS 的统一内存架构 (Unified Memory),显存和内存通用,跑 30B 级别的模型竟然还算稳定。
  • 本子2:Windows 笔记本 (64GB 内存)
    • 方案: `llama.cpp`
    • 最新尝试: Qwen3.6-27B
    • 体验: 极其拉胯。本以为 64G 内存能起飞,结果发现如果没有顶级显存(显存没拉满),纯靠 CPU 推断,速度慢到怀疑人生。

不知道有没有佬友在研究这个方向的,大家交流一下

网友解答:
--【壹】--:

槽点有点多… 一个一个说吧。

阅读全文
标签:人工智能