Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms
| 场景 | 成功请求 | Benchmark 时长(s) | 输出吞吐(tok/s) | Mean TTFT(ms) | P99 TTFT(ms) | Mean TPOT(ms) | Mean ITL(ms) |
|---|---|---|---|---|---|---|---|
| 单用户串行测试 | 20 | 136.99 | 37.94 | 543.42 | 2878.45 | 23.46 | 24.17 |
| 8 并发用户测试 | 100 | 135.85 | 164.39 | 331.77 | 786.20 | 43.45 | 44.19 |
| 固定 QPS 多用户测试 | 200 | 194.69 | 229.79 | 521.67 | 4542.64 | 62.82 | 62.22 |
Qwen3.6-27B
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms
| 场景 | 成功请求 | Benchmark 时长(s) | 输出吞吐(tok/s) | Mean TTFT(ms) | P99 TTFT(ms) | Mean TPOT(ms) | Mean ITL(ms) |
|---|---|---|---|---|---|---|---|
| 单用户串行测试 | 20 | 445.13 | 11.68 | 1078.83 | 14364.02 | 81.68 | 81.37 |
| 8 并发用户测试 | 100 | 280.35 | 79.13 | 678.16 | 4253.76 | 89.96 | 89.79 |
| 固定 QPS 多用户测试 | 200 | 336.47 | 132.89 | 428.64 | 761.94 | 108.11 | 106.61 |
总结
由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了
网友解答:--【壹】--:
Spark 就适合跑 Moe 模型速度嘎嘎快,跑 Dense 模型就 so so 了
问题描述:
--【壹】--:
模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms
| 场景 | 成功请求 | Benchmark 时长(s) | 输出吞吐(tok/s) | Mean TTFT(ms) | P99 TTFT(ms) | Mean TPOT(ms) | Mean ITL(ms) |
|---|---|---|---|---|---|---|---|
| 单用户串行测试 | 20 | 136.99 | 37.94 | 543.42 | 2878.45 | 23.46 | 24.17 |
| 8 并发用户测试 | 100 | 135.85 | 164.39 | 331.77 | 786.20 | 43.45 | 44.19 |
| 固定 QPS 多用户测试 | 200 | 194.69 | 229.79 | 521.67 | 4542.64 | 62.82 | 62.22 |
Qwen3.6-27B
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms
| 场景 | 成功请求 | Benchmark 时长(s) | 输出吞吐(tok/s) | Mean TTFT(ms) | P99 TTFT(ms) | Mean TPOT(ms) | Mean ITL(ms) |
|---|---|---|---|---|---|---|---|
| 单用户串行测试 | 20 | 445.13 | 11.68 | 1078.83 | 14364.02 | 81.68 | 81.37 |
| 8 并发用户测试 | 100 | 280.35 | 79.13 | 678.16 | 4253.76 | 89.96 | 89.79 |
| 固定 QPS 多用户测试 | 200 | 336.47 | 132.89 | 428.64 | 761.94 | 108.11 | 106.61 |
总结
由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了
网友解答:--【壹】--:
Spark 就适合跑 Moe 模型速度嘎嘎快,跑 Dense 模型就 so so 了

