<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决 接入原生claude code缓存问题

2026-04-13 12:320阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

前情提要:

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。

原因主要有三点:

  • 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
  • 可以更灵活地调整内存上限
  • Ollama 虽然方便,但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。

既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。

阅读全文
问题描述:

前情提要:

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。

原因主要有三点:

  • 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
  • 可以更灵活地调整内存上限
  • Ollama 虽然方便,但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。

既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。

阅读全文