Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。
问题描述:
模型来源
RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face
sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face
Qwen3.6-35B-A3B速度
单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线,用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量,平均每秒 4 个请求。

