Qwen3.6-35B-A3B 5090单卡部署，200+ tokss

2026-04-29 09:401阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

越来也快了，比Qwen3.5-35B-A3B效果要更好，当前单卡部署了ud-Q4-K-XL.gguf

image2770×161 45.2 KB

目前已知4090 180+toks/s, 3090 100+toks/s

附上对应的启动参数，

llama-server --model path --ctx-size 262144 --port 8081 -ngl 99 --no-mmap --threads 16 --batch-size 256 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -np 1 --temp 0.6 --top-p 0.95 --top-k 20 --mlock

期待下Qwen3.6-27B Dense预计周末或者下周就出来了吧
大家现在根据自己的显存，丰俭由人，好消息是vLLM的turbo量化出来了，模型会马上跟上，12G和8G也有春天~

image1390×205 15 KB

网友解答：

--【壹】--：

可能场景不一样吧，我测试一些证件识别，Gemma4输出没有千问好

--【贰】--：

你是怎么测试的，我测试了一下Gemma4的多模态，效果还不错

--【叁】--：

小模型今非昔比，半年前还很拉，现在已经能追平一年前的大模型了。

--【肆】--：

刚在本地的双卡3090上部署了Gemma4-31B，Q8版本，不知道跟千问这个哪个更强

--【伍】--：

量化版本，用openrouter上的模型测试的

--【陆】--：

我也刚部署完。4090，在cc上用来分析一段代码，输出质量还不错，速度比之前的opus 蒸馏版还要快一点。

阅读全文

标签：人工智能国产替代