Qwen 3.6_27B Dense 单卡部署5090 60+tokss质量可以，够用了~

2026-04-29 10:372阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

使用的是Unsloth家的动态，选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本，用的是5090单卡，32G vram，大家可以根据这个表格，快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens

24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB

32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k normal KV: 31.9 GB

目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B

再期待下其他家对 qwen 3.6 27B的进一步变种专训结果，有机会在Herems上再跑下~

附上启动参数，
-ngl 99 -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0
–no-mmap --mlock --threads 16 --threads-batch 16 --batch-size 256 --ubatch-size 256
–temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0

网友解答：

--【壹】--：

都把 Claude 4.5 Opus 拉出来做比较了，能不可以吗

--【贰】--：

请教一下佬 Q8 Q5 Q4 不同量化实际效果差异大吗

--【叁】--：

从qwen 3.5的经验来看，基本不掉精读，但选你硬件和可接受上下文最近的那个，也就是能就高就就高，如果硬件很紧张，Q4也够用

--【肆】--： yeyucca:

5090

5090 能跑多少上下文呢 256k能拉满吗

--【伍】--：

个体感觉 qwen 3.5的122B_A10B就可以不用了，397B本来也部署不了，官方又说质量超越这个,留着27B Dense

--【陆】--：

可以~注意kv cache设置到q4_0

标签：人工智能软件开发

问题描述：

使用的是Unsloth家的动态，选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本，用的是5090单卡，32G vram，大家可以根据这个表格，快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens

24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB

32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k normal KV: 31.9 GB

目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B

再期待下其他家对 qwen 3.6 27B的进一步变种专训结果，有机会在Herems上再跑下~

网友解答：

--【壹】--：

都把 Claude 4.5 Opus 拉出来做比较了，能不可以吗

--【贰】--：

请教一下佬 Q8 Q5 Q4 不同量化实际效果差异大吗

--【叁】--：

从qwen 3.5的经验来看，基本不掉精读，但选你硬件和可接受上下文最近的那个，也就是能就高就就高，如果硬件很紧张，Q4也够用

--【肆】--： yeyucca:

5090

5090 能跑多少上下文呢 256k能拉满吗

--【伍】--：

个体感觉 qwen 3.5的122B_A10B就可以不用了，397B本来也部署不了，官方又说质量超越这个,留着27B Dense

--【陆】--：

可以~注意kv cache设置到q4_0

标签：人工智能软件开发

相关推荐

相关推荐