Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

2026-04-29 10:192阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
    吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms
场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms)
单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17
8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19
固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22

Qwen3.6-27B

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
    吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms
场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms)
单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37
8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79
固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61

总结

由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了

网友解答:
--【壹】--:

Spark 就适合跑 Moe 模型速度嘎嘎快,跑 Dense 模型就 so so 了

问题描述:

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
    吞吐 229.79 tok/s, Mean TTFT 521.67 ms, P99 TTFT 4542.64 ms, Mean TPOT 62.82 ms
场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms)
单用户串行测试 20 136.99 37.94 543.42 2878.45 23.46 24.17
8 并发用户测试 100 135.85 164.39 331.77 786.20 43.45 44.19
固定 QPS 多用户测试 200 194.69 229.79 521.67 4542.64 62.82 62.22

Qwen3.6-27B

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 11.68 tok/s, Mean TTFT 1078.83 ms, P99 TTFT 14364.02 ms, Mean TPOT 81.68 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 79.13 tok/s, Mean TTFT 678.16 ms, P99 TTFT 4253.76 ms, Mean TPOT 89.96 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
    吞吐 132.89 tok/s, Mean TTFT 428.64 ms, P99 TTFT 761.94 ms, Mean TPOT 108.11 ms
场景 成功请求 Benchmark 时长(s) 输出吞吐(tok/s) Mean TTFT(ms) P99 TTFT(ms) Mean TPOT(ms) Mean ITL(ms)
单用户串行测试 20 445.13 11.68 1078.83 14364.02 81.68 81.37
8 并发用户测试 100 280.35 79.13 678.16 4253.76 89.96 89.79
固定 QPS 多用户测试 200 336.47 132.89 428.64 761.94 108.11 106.61

总结

由于dgxspark的内存带宽和cuda核心都比较弱,只是内存比较大,能跑MOE模型还是优先跑MOE模型。这里跑Dense模型速度快砍半了

网友解答:
--【壹】--:

Spark 就适合跑 Moe 模型速度嘎嘎快,跑 Dense 模型就 so so 了