<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决 接入原生claude code缓存问题
- 内容介绍
- 文章标签
- 相关推荐
前情提要:
最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。
再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。
11484×297 28.8 KB
一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。
说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。
1. 环境部署
这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。
原因主要有三点:
- 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
- 可以更灵活地调整内存上限
- Ollama 虽然方便,但毕竟多了一层封装
# 创建并进入虚拟环境
python3 -m venv mlx_env
source mlx_env/bin/activate
# 安装 MLX 核心及优化扩展
python3 -m pip install -U mlx-lm mlx huggingface_hub
# 安装 LM Studio
curl -fsSL https://lmstudio.ai/install.sh | bash
# 或者使用 GUI 客户端
https://lmstudio.ai/
2. 下载模型
在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。
既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。
前情提要:
最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。
再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。
11484×297 28.8 KB
一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。
说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。
1. 环境部署
这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。
原因主要有三点:
- 原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
- 可以更灵活地调整内存上限
- Ollama 虽然方便,但毕竟多了一层封装
# 创建并进入虚拟环境
python3 -m venv mlx_env
source mlx_env/bin/activate
# 安装 MLX 核心及优化扩展
python3 -m pip install -U mlx-lm mlx huggingface_hub
# 安装 LM Studio
curl -fsSL https://lmstudio.ai/install.sh | bash
# 或者使用 GUI 客户端
https://lmstudio.ai/
2. 下载模型
在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意:一定要选 MLX 版本(Mac 上的加速优势就在这,不选等于白换)。
既然有 128G 内存,空间比较富裕,我直接选择 bf16 顶配。

