Qwen3.6-35B-A3B 5090单卡部署,200+ tokss

2026-04-29 09:401阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数,

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~

image1390×205 15 KB

网友解答:
--【壹】--:

可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好


--【贰】--:

你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错


--【叁】--:

小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。


--【肆】--:

刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强


--【伍】--:

量化版本,用openrouter上的模型测试的


--【陆】--:

我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。

阅读全文
问题描述:

越来也快了,比Qwen3.5-35B-A3B效果要更好,当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数,

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存,丰俭由人,好消息是vLLM的turbo量化出来了,模型会马上跟上,12G和8G也有春天~

image1390×205 15 KB

网友解答:
--【壹】--:

可能场景不一样吧,我测试一些证件识别,Gemma4输出没有千问好


--【贰】--:

你是怎么测试的,我测试了一下Gemma4的多模态,效果还不错


--【叁】--:

小模型今非昔比,半年前还很拉,现在已经能追平一年前的大模型了。


--【肆】--:

刚在本地的双卡3090上部署了Gemma4-31B,Q8版本,不知道跟千问这个哪个更强


--【伍】--:

量化版本,用openrouter上的模型测试的


--【陆】--:

我也刚部署完。4090,在cc上用来分析一段代码,输出质量还不错,速度比之前的opus 蒸馏版还要快一点。

阅读全文