[求助]Qwen3 32B本地部署配置要求?
- 内容介绍
- 文章标签
- 相关推荐
请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。
请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)
--【壹】--:
好的谢谢佬
--【贰】--:
这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存
补充一点,FP8 权重 + FP8 KV-Cache
--【叁】--:
感谢分享
--【肆】--:
qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢
--【伍】--:
如何并发用户多,所需资源还要增加
--【陆】--:
gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗
--【柒】--:
谢谢佬建议!
--【捌】--:
官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。
--【玖】--:
int4 降智多了点,属于无奈的选择,最好还是跑 FP8
--【拾】--:
差不多这个配置
--【拾壹】--:
佬,并发量多的话如何计算?有没有大概的一个量级,增加多少并发加多少显存
--【拾贰】--:
这个网站,可以快速查看
CanIRun.ai — Can your machine run AI models?
Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.
--【拾叁】--: Grogu:
int4 降智多了点,属于无奈的选择,最好还是跑 FP8
确实有点。我这边为了节省显存,还跑了别的模型。
--【拾肆】--:
Qwen 32B?Qwen3-32B?
FP16 大概需要 80GB 显存不到
FP8 大概需要 40GB 左右的显存
应该还需要部署嵌入模型和重排模型,还需要更多的显存
现在可以考虑换成 Qwen3.5-27B,原生上下文更大,还是原生多模态
--【拾伍】--:
好滴佬感谢
--【拾陆】--:
FP8 就可以,和 FP16 差距很小
可以看看佬友分享的部署方法
【SGLang】4090 48G魔改 部署 Qwen3.5-27B-FP8&35B A3B 一些心得经验分享。 开发调优先介绍环境: 4090 48G i5 13600k ddr4 32Gx4 win11 LTSC WSL2 Ubuntu22.04 目前性能结论(个人感受): 4并发,单路50-60tok/s,kvcache fp8 310k缓存池子,显存总占用~46G。 主要使用环境openclaw、opencode 工具tools遵循度完美,长任务执行完美。 不建议使用社区微调的opus、g…
--【拾柒】--:
感谢佬!
请问一下佬友们,公司想做一个保险AI智能客服的产品,打算购买算力本地部署,不使用API。
请教一下系统流畅运行需要的硬件参数-GPU 内存这些需要多大,另外考虑到多用户并发。不做微调,估计是RAG一下加一些算法。
请教一下有经验的佬友们 (最好能提供具体硬件型号,价格,企业采购)
--【壹】--:
好的谢谢佬
--【贰】--:
这个要看具体应用,需要预估平均上下文长度和并发量,本质上就是计算 KV-Cache 的显存占用,不考虑缓存的情况,1K 上下文大概需要 0.15 ~ 0.2 GB 的显存
补充一点,FP8 权重 + FP8 KV-Cache
--【叁】--:
感谢分享
--【肆】--:
qwen3vl-32b 实际用了70多G,vllm起的,单卡略慢
--【伍】--:
如何并发用户多,所需资源还要增加
--【陆】--:
gQwen3.5-27B是FP16的吗佬,就是说跑Qwen3.5-27B差不多需要80G显存,FP8差不多需要40G现存。FP8跟P16差别大吗
--【柒】--:
谢谢佬建议!
--【捌】--:
官方Qwen3.5-35B-A3B-GPTQ-Int4,两张2080ti 22g vllm运行流畅。
四卡2080ti 22g --gpu-memory-utilization 0.5,200k上下文,并发上限没测,但是和朋友用正常,还能运行其他模型和Ollama。
四张L20卡完全无压力。
--【玖】--:
int4 降智多了点,属于无奈的选择,最好还是跑 FP8
--【拾】--:
差不多这个配置
--【拾壹】--:
佬,并发量多的话如何计算?有没有大概的一个量级,增加多少并发加多少显存
--【拾贰】--:
这个网站,可以快速查看
CanIRun.ai — Can your machine run AI models?
Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.
--【拾叁】--: Grogu:
int4 降智多了点,属于无奈的选择,最好还是跑 FP8
确实有点。我这边为了节省显存,还跑了别的模型。
--【拾肆】--:
Qwen 32B?Qwen3-32B?
FP16 大概需要 80GB 显存不到
FP8 大概需要 40GB 左右的显存
应该还需要部署嵌入模型和重排模型,还需要更多的显存
现在可以考虑换成 Qwen3.5-27B,原生上下文更大,还是原生多模态
--【拾伍】--:
好滴佬感谢
--【拾陆】--:
FP8 就可以,和 FP16 差距很小
可以看看佬友分享的部署方法
【SGLang】4090 48G魔改 部署 Qwen3.5-27B-FP8&35B A3B 一些心得经验分享。 开发调优先介绍环境: 4090 48G i5 13600k ddr4 32Gx4 win11 LTSC WSL2 Ubuntu22.04 目前性能结论(个人感受): 4并发,单路50-60tok/s,kvcache fp8 310k缓存池子,显存总占用~46G。 主要使用环境openclaw、opencode 工具tools遵循度完美,长任务执行完美。 不建议使用社区微调的opus、g…
--【拾柒】--:
感谢佬!

![[求助]Qwen3 32B本地部署配置要求?](/imgrand/s3Y4PIxw.webp)