Qwen 3.6_27B Dense 单卡部署5090 60+tokss质量可以,够用了~

2026-04-29 10:371阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens


24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB


32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k nor

阅读全文
问题描述:

使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下

image682×426 71.4 KB

image848×209 16 KB

Qwen3.6 权重+kvcache 部署量化参考

Qwen3.6 27B GGUF memory estimates
model + KV cache + 10% overhead
Considering only two context length: 128k and 262k tokens


24 GB GPU

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB


32 GB GPU

UD-Q4_K_XL
128k Q8 KV: 24.4 GB
262k Q8 KV: 29.4 GB
128k normal KV: 28.8 GB

UD-Q3_K_XL
128k Q8 KV: 21.0 GB
262k Q8 KV: 26.0 GB
128k normal KV: 25.4 GB

UD-IQ3_XXS
128k Q8 KV: 18.3 GB
262k Q8 KV: 23.2 GB
128k normal KV: 22.7 GB

UD-Q2_K_XL
128k Q8 KV: 18.0 GB
262k Q8 KV: 23.0 GB
128k normal KV: 22.4 GB
262k nor

阅读全文