[求助]Qwen3 32B本地部署配置要求?
- 内容介绍
- 文章标签
- 相关推荐
请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。
请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)
--【壹】--:
好的谢谢佬
--【贰】--:
这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存
补充一点,FP8 权重 + FP8 KV-Cache
--【叁】--:
感谢分享
--【肆】--:
qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢
--【伍】--:
如何并发用户多,所需资源还要增加
--【陆】--:
gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗
--【柒】--:
谢谢佬建议!
--【捌】--:
官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。
请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。
请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)
--【壹】--:
好的谢谢佬
--【贰】--:
这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存
补充一点,FP8 权重 + FP8 KV-Cache
--【叁】--:
感谢分享
--【肆】--:
qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢
--【伍】--:
如何并发用户多,所需资源还要增加
--【陆】--:
gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗
--【柒】--:
谢谢佬建议!
--【捌】--:
官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。

![[求助]Qwen3 32B本地部署配置要求?](/imgrand/s3Y4PIxw.webp)