Qwen3.6-35B-A3B 5090单卡部署,200+ tokss
- 内容介绍
- 文章标签
- 相关推荐
越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf
image2770×161 45.2 KB
目前已知4090 180+toks/s, 3090 100+toks/s
附上对应的启动参数,
llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock
期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~
image1390×205 15 KB
网友解答:--【壹】--:
可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好
--【贰】--:
你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错
--【叁】--:
小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。
--【肆】--:
刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强
--【伍】--:
量化版本,用openrouter上的模型测试的
--【陆】--:
我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。
--【柒】--:
A800 单卡fp16,并发16,上下文必须裁剪到131072,单个请求可以达到decode 120tokens/s
比3.5性能上确实优化不少,而且思维链的问题也修正了
--【捌】--:
这版本的qwen基本上可以拿来写网页了。。。
--【玖】--:
deepseek r1 32b基座是qwen2.5,都一年前的模型了,现在小模型进步挺大的
--【拾】--:
200+token/s 小龙虾token自由了
--【拾壹】--:
qwen本地部署的用起来怎么样,能用于生产环境吗? 我之前部署过deepseek r1 32b ,效果是很不行
--【拾贰】--: ArkaneFans:
r1
那太好了, 感觉内网开发也可以搞一个了. 我一直以来的印象还是残血模型用不了呢
--【拾叁】--:
qwen依旧是那个源神,qwen3.5 27b用起来就感觉很不错
真的希望qwen能继续保持开源(qwen3.6大参数也开源叭)
--【拾肆】--:
啊glm-5.1?700多B的模型得大于10张H200才能跑起来吧
--【拾伍】--:
多模态肯定千问强,测试了一些审核场景也是千问强
--【拾陆】--:
都是满血版本的吗,我估计我跑不了满血版本的,现在跑Q8都有点吃力
--【拾柒】--:
都在本地跑么,好猛 佬有没有试过GLM5.1
--【拾捌】--:
k v 都设置到q4了,这个对结果有影响么?
--【拾玖】--:
5090 的32G显存也只能部署Q4量化吗?量化对小模型智商影响比较大,Q8比较好?
越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf
image2770×161 45.2 KB
目前已知4090 180+toks/s, 3090 100+toks/s
附上对应的启动参数,
llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock
期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~
image1390×205 15 KB
网友解答:--【壹】--:
可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好
--【贰】--:
你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错
--【叁】--:
小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。
--【肆】--:
刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强
--【伍】--:
量化版本,用openrouter上的模型测试的
--【陆】--:
我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。
--【柒】--:
A800 单卡fp16,并发16,上下文必须裁剪到131072,单个请求可以达到decode 120tokens/s
比3.5性能上确实优化不少,而且思维链的问题也修正了
--【捌】--:
这版本的qwen基本上可以拿来写网页了。。。
--【玖】--:
deepseek r1 32b基座是qwen2.5,都一年前的模型了,现在小模型进步挺大的
--【拾】--:
200+token/s 小龙虾token自由了
--【拾壹】--:
qwen本地部署的用起来怎么样,能用于生产环境吗? 我之前部署过deepseek r1 32b ,效果是很不行
--【拾贰】--: ArkaneFans:
r1
那太好了, 感觉内网开发也可以搞一个了. 我一直以来的印象还是残血模型用不了呢
--【拾叁】--:
qwen依旧是那个源神,qwen3.5 27b用起来就感觉很不错
真的希望qwen能继续保持开源(qwen3.6大参数也开源叭)
--【拾肆】--:
啊glm-5.1?700多B的模型得大于10张H200才能跑起来吧
--【拾伍】--:
多模态肯定千问强,测试了一些审核场景也是千问强
--【拾陆】--:
都是满血版本的吗,我估计我跑不了满血版本的,现在跑Q8都有点吃力
--【拾柒】--:
都在本地跑么,好猛 佬有没有试过GLM5.1
--【拾捌】--:
k v 都设置到q4了,这个对结果有影响么?
--【拾玖】--:
5090 的32G显存也只能部署Q4量化吗?量化对小模型智商影响比较大,Q8比较好?

