Qwen 3.6_27B Dense 单卡部署5090 60+tokss质量可以,够用了~

2026-04-29 10:372阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens


24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB


32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k normal KV: 31.9 GB

目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B

再期待下 其他家对 qwen 3.6 27B的进一步变种专训结果,有机会在Herems上再跑下~

附上启动参数,
-ngl 99 -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0
–no-mmap --mlock --threads 16 --threads-batch 16 --batch-size 256 --ubatch-size 256
–temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0

网友解答:
--【壹】--:

都把 Claude 4.5 Opus 拉出来做比较了,能不可以吗


--【贰】--:

请教一下佬 Q8 Q5 Q4 不同量化实际效果差异大吗


--【叁】--:

从qwen 3.5的经验来看,基本不掉精读,但选你硬件和可接受上下文最近的那个,也就是能就高就就高,如果硬件很紧张,Q4也够用


--【肆】--: yeyucca:

5090

5090 能跑多少上下文呢 256k能拉满吗


--【伍】--:

个体感觉 qwen 3.5的122B_A10B就可以不用了,397B本来也部署不了,官方又说质量超越这个,留着27B Dense


--【陆】--:

可以~注意kv cache设置到q4_0

问题描述:

使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens


24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB


32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k normal KV: 31.9 GB

目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B

再期待下 其他家对 qwen 3.6 27B的进一步变种专训结果,有机会在Herems上再跑下~

附上启动参数,
-ngl 99 -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0
–no-mmap --mlock --threads 16 --threads-batch 16 --batch-size 256 --ubatch-size 256
–temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0

网友解答:
--【壹】--:

都把 Claude 4.5 Opus 拉出来做比较了,能不可以吗


--【贰】--:

请教一下佬 Q8 Q5 Q4 不同量化实际效果差异大吗


--【叁】--:

从qwen 3.5的经验来看,基本不掉精读,但选你硬件和可接受上下文最近的那个,也就是能就高就就高,如果硬件很紧张,Q4也够用


--【肆】--: yeyucca:

5090

5090 能跑多少上下文呢 256k能拉满吗


--【伍】--:

个体感觉 qwen 3.5的122B_A10B就可以不用了,397B本来也部署不了,官方又说质量超越这个,留着27B Dense


--【陆】--:

可以~注意kv cache设置到q4_0