本地部署qwen3.5-35b的测试，我的显卡是3090 24G

2026-04-11 12:400阅读0评论SEO问题

问题描述：

2月25日测试：

qwen3.5-35b-a3b

本人部署环境
硬件：3090 24G + 32G内存
软件：ollama，openclaw
模型：qwen3.5-35b（该模型链接： qwen3.5:35b）

测试的几个图片案例，发给本地的qwen3.5-35b：

1、猫：
image228×220 37.2 KB
image944×137 21.4 KB

2、B站首页：
image1882×920 506 KB
image749×391 46.7 KB

3、我用手机拍了一下我乱糟糟的书房：
image1232×923 149 KB
image692×410 35.8 KB

2026年2月26日20:05更新：

更新一下，刚刚不知道是啥原因，推理的速度突然快起来了，101t/s

很可能是因为我今天下午折腾了一下环境，把一些版本升级到了最新。
重新折腾后的环境：ubuntu22.04.5 + lmstudio + qwen3.5-35b-a3b-heretic，4bit量化模型

image1054×674 38.9 KB

如图所示，我使用的是qwen3.5-35b-a3b-heretic，4bit量化的模型。上下文长度我设置的是100K

image1074×708 28.8 KB

目前我的内存占用依然是空闲的，显存倒是已经占满了，
我想办法看看我的drr5内存有没有办法压榨一下。

image864×478 13.1 KB

image1084×708 37.7 KB

2026年3月3日更新：

经过几天的操作，我已经熟练的使用lmstudio了，（vllm懒得去折腾了）。