Qwen3.6-35B-A3B 5090单卡部署，200+ tokss

2026-04-29 09:402阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

越来也快了，比Qwen3.5-35B-A3B效果要更好，当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数，

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存，丰俭由人，好消息是vLLM的turbo量化出来了，模型会马上跟上，12G和8G也有春天~

image1390×205 15 KB

网友解答：

--【壹】--：

可能场景不一样吧，我测试一些证件识别，Gemma4输出没有千问好

--【贰】--：

你是怎么测试的，我测试了一下Gemma4的多模态，效果还不错

--【叁】--：

小模型今非昔比，半年前还很拉，现在已经能追平一年前的大模型了。

--【肆】--：

刚在本地的双卡3090上部署了Gemma4-31B，Q8版本，不知道跟千问这个哪个更强

--【伍】--：

量化版本，用openrouter上的模型测试的

--【陆】--：

我也刚部署完。4090，在cc上用来分析一段代码，输出质量还不错，速度比之前的opus 蒸馏版还要快一点。

--【柒】--：

A800 单卡fp16，并发16，上下文必须裁剪到131072，单个请求可以达到decode 120tokens/s

比3.5性能上确实优化不少，而且思维链的问题也修正了

--【捌】--：

这版本的qwen基本上可以拿来写网页了。。。

--【玖】--：

deepseek r1 32b基座是qwen2.5，都一年前的模型了，现在小模型进步挺大的

--【拾】--：

200+token/s 小龙虾token自由了

--【拾壹】--：

qwen本地部署的用起来怎么样,能用于生产环境吗? 我之前部署过deepseek r1 32b ,效果是很不行

--【拾贰】--： ArkaneFans:

r1

那太好了, 感觉内网开发也可以搞一个了. 我一直以来的印象还是残血模型用不了呢

--【拾叁】--：

qwen依旧是那个源神，qwen3.5 27b用起来就感觉很不错
真的希望qwen能继续保持开源（qwen3.6大参数也开源叭）

--【拾肆】--：

啊glm-5.1？700多B的模型得大于10张H200才能跑起来吧

--【拾伍】--：

多模态肯定千问强，测试了一些审核场景也是千问强

--【拾陆】--：

都是满血版本的吗，我估计我跑不了满血版本的，现在跑Q8都有点吃力

--【拾柒】--：

都在本地跑么,好猛佬有没有试过GLM5.1

--【拾捌】--：

k v 都设置到q4了，这个对结果有影响么？

--【拾玖】--：

5090 的32G显存也只能部署Q4量化吗？量化对小模型智商影响比较大，Q8比较好？

标签：人工智能国产替代