Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

2026-04-29 10:192阅读0评论SEO资源

问题描述：

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。
吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms

场景	成功请求	Benchmark 时长(s)	输出吞吐(tok/s)	Mean TTFT(ms)	P99 TTFT(ms)	Mean TPOT(ms)	Mean ITL(ms)
单用户串行测试	20	136.99	37.94	543.42	2878.45	23.46	24.17
8 并发用户测试	100	135.85	164.39	331.77	786.20	43.45	44.19
固定 QPS 多用户测试	200	194.69	229.79	521.67	4542.64	62.82	62.22

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。
吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms

场景	成功请求	Benchmark 时长(s)	输出吞吐(tok/s)	Mean TTFT(ms)	P99 TTFT(ms)	Mean TPOT(ms)	Mean ITL(ms)
单用户串行测试	20	445.13	11.68	1078.83	14364.02	81.68	81.37
8 并发用户测试	100	280.35	79.13	678.16	4253.76	89.96	89.79
固定 QPS 多用户测试	200	336.47	132.89	428.64	761.94	108.11	106.61

由于dgxspark的内存带宽和cuda核心都比较弱，只是内存比较大，能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了

网友解答：

--【壹】--：

Spark 就适合跑 Moe 模型速度嘎嘎快，跑 Dense 模型就 so so 了