[求助]Qwen3 32B本地部署配置要求?

2026-04-11 12:470阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。

请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)

网友解答:
--【壹】--:

好的谢谢佬


--【贰】--:

这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存


补充一点,FP8 权重 + FP8 KV-Cache


--【叁】--:

感谢分享


--【肆】--:

qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢


--【伍】--:

如何并发用户多,所需资源还要增加


--【陆】--:

gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗


--【柒】--:

谢谢佬建议!


--【捌】--:

官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。

阅读全文
问题描述:

请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。

请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)

网友解答:
--【壹】--:

好的谢谢佬


--【贰】--:

这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存


补充一点,FP8 权重 + FP8 KV-Cache


--【叁】--:

感谢分享


--【肆】--:

qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢


--【伍】--:

如何并发用户多,所需资源还要增加


--【陆】--:

gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗


--【柒】--:

谢谢佬建议!


--【捌】--:

官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。

阅读全文