Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

2026-04-29 10:191阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
阅读全文
问题描述:

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

  • 单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
    吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
  • 8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
    吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
  • 固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
阅读全文