<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论,已解决接入原生claude code缓存问题

2026-04-13 12:320阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

前情提要：

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火，于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM，而不是 Ollama 的 MLX 版本。

原因主要有三点：

原生 MLX 性能更“干净”，大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便，但毕竟多了一层封装

# 创建并进入虚拟环境 python3 -m venv mlx_env source mlx_env/bin/activate # 安装 MLX 核心及优化扩展 python3 -m pip install -U mlx-lm mlx huggingface_hub # 安装 LM Studio curl -fsSL https://lmstudio.ai/install.sh | bash # 或者使用 GUI 客户端 https://lmstudio.ai/

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意：一定要选 MLX 版本（Mac 上的加速优势就在这，不选等于白换）。

既然有 128G 内存，空间比较富裕，我直接选择 bf16 顶配。

阅读全文

标签：人工智能纯水

问题描述：

前情提要：

最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。

再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。

11484×297 28.8 KB

一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。

说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火，于是就记录一下我从部署到实战验证的过程。

1. 环境部署

这里我选择 MLX-LM，而不是 Ollama 的 MLX 版本。

原因主要有三点：

原生 MLX 性能更“干净”，大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便，但毕竟多了一层封装

2. 下载模型

在 LM Studio 里搜索 MLX-qwopus3.5-27B。注意：一定要选 MLX 版本（Mac 上的加速优势就在这，不选等于白换）。

既然有 128G 内存，空间比较富裕，我直接选择 bf16 顶配。

阅读全文

标签：人工智能纯水

1. 环境部署

2. 下载模型

相关推荐

1. 环境部署

2. 下载模型

相关推荐