Qwen3.6-35B-A3B 5090单卡部署,200+ tokss

2026-04-29 09:402阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数,

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~

image1390×205 15 KB

网友解答:
--【壹】--:

可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好


--【贰】--:

你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错


--【叁】--:

小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。


--【肆】--:

刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强


--【伍】--:

量化版本,用openrouter上的模型测试的


--【陆】--:

我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。


--【柒】--:

A800 单卡fp16,并发16,上下文必须裁剪到131072,单个请求可以达到decode 120tokens/s

比3.5性能上确实优化不少,而且思维链的问题也修正了


--【捌】--:

这版本的qwen基本上可以拿来写网页了。。。


--【玖】--:

deepseek r1 32b基座是qwen2.5,都一年前的模型了,现在小模型进步挺大的


--【拾】--:

200+token/s 小龙虾token自由了


--【拾壹】--:

qwen本地部署的用起来怎么样,能用于生产环境吗? 我之前部署过deepseek r1 32b ,效果是很不行


--【拾贰】--: ArkaneFans:

r1

那太好了, 感觉内网开发也可以搞一个了. 我一直以来的印象还是残血模型用不了呢


--【拾叁】--:

qwen依旧是那个源神,qwen3.5 27b用起来就感觉很不错
真的希望qwen能继续保持开源(qwen3.6大参数也开源叭)


--【拾肆】--:

啊glm-5.1?700多B的模型得大于10张H200才能跑起来吧


--【拾伍】--:

多模态肯定千问强,测试了一些审核场景也是千问强


--【拾陆】--:

都是满血版本的吗,我估计我跑不了满血版本的,现在跑Q8都有点吃力


--【拾柒】--:

都在本地跑么,好猛 佬有没有试过GLM5.1


--【拾捌】--:

k v 都设置到q4了,这个对结果有影响么?


--【拾玖】--:

5090 的32G显存也只能部署Q4量化吗?量化对小模型智商影响比较大,Q8比较好?

问题描述:

越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数,

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~

image1390×205 15 KB

网友解答:
--【壹】--:

可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好


--【贰】--:

你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错


--【叁】--:

小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。


--【肆】--:

刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强


--【伍】--:

量化版本,用openrouter上的模型测试的


--【陆】--:

我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。


--【柒】--:

A800 单卡fp16,并发16,上下文必须裁剪到131072,单个请求可以达到decode 120tokens/s

比3.5性能上确实优化不少,而且思维链的问题也修正了


--【捌】--:

这版本的qwen基本上可以拿来写网页了。。。


--【玖】--:

deepseek r1 32b基座是qwen2.5,都一年前的模型了,现在小模型进步挺大的


--【拾】--:

200+token/s 小龙虾token自由了


--【拾壹】--:

qwen本地部署的用起来怎么样,能用于生产环境吗? 我之前部署过deepseek r1 32b ,效果是很不行


--【拾贰】--: ArkaneFans:

r1

那太好了, 感觉内网开发也可以搞一个了. 我一直以来的印象还是残血模型用不了呢


--【拾叁】--:

qwen依旧是那个源神,qwen3.5 27b用起来就感觉很不错
真的希望qwen能继续保持开源(qwen3.6大参数也开源叭)


--【拾肆】--:

啊glm-5.1?700多B的模型得大于10张H200才能跑起来吧


--【拾伍】--:

多模态肯定千问强,测试了一些审核场景也是千问强


--【拾陆】--:

都是满血版本的吗,我估计我跑不了满血版本的,现在跑Q8都有点吃力


--【拾柒】--:

都在本地跑么,好猛 佬有没有试过GLM5.1


--【拾捌】--:

k v 都设置到q4了,这个对结果有影响么?


--【拾玖】--:

5090 的32G显存也只能部署Q4量化吗?量化对小模型智商影响比较大,Q8比较好?