[求助]Qwen3 32B本地部署配置要求？

2026-04-11 12:470阅读0评论SEO基础

问题描述：

请问一下佬友们，公司想做一个保险AI智能客服的产品，打算购买算力本地部署，不使用API。

请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大，另外考虑到多用户并发。不做微调，估计是RAG一下加一些算法。
请教一下有经验的佬友们（最好能提供具体硬件型号，价格，企业采购）

网友解答：

--【壹】--：

好的谢谢佬

--【贰】--：

这个要看具体应用，需要预估平均上下文长度和并发量，本质上就是计算 KV-Cache 的显存占用，不考虑缓存的情况，1K 上下文大概需要 0.15 ～ 0.2 GB 的显存

补充一点，FP8 权重 + FP8 KV-Cache

--【叁】--：

感谢分享

--【肆】--：

qwen3vl-32b 实际用了70多G，vllm起的，单卡略慢

--【伍】--：

如何并发用户多，所需资源还要增加

--【陆】--：

gQwen3.5-27B是FP16的吗佬，就是说跑Qwen3.5-27B差不多需要80G显存，FP8差不多需要40G现存。FP8跟P16差别大吗

--【柒】--：

谢谢佬建议！

--【捌】--：

官方Qwen3.5-35B-A3B-GPTQ-Int4，两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5，200k上下文，并发上限没测，但是和朋友用正常，还能运行其他模型和Ollama。
四张L20卡完全无压力。