Qwen3.6-27B和Qwen3.6-35B-A3B的nvfp4量化在dgxspark下面的速度表现

2026-04-29 10:191阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。

标签：人工智能纯水

问题描述：

模型来源

RedHatAI/Qwen3.6-35B-A3B-NVFP4 · Hugging Face

sakamakismile/Qwen3.6-27B-NVFP4 · Hugging Face

Qwen3.6-35B-A3B速度

单用户串行测试: num_prompts=20, request_rate=1, max_concurrency=1。低负载基线，用来看模型本身的交互体验。
吞吐 37.94 tok/s, Mean TTFT 543.42 ms, P99 TTFT 2878.45 ms, Mean TPOT 23.46 ms
8 并发用户测试: num_prompts=100, request_rate=inf, max_concurrency=8。模拟最多 8 个用户同时使用。
吞吐 164.39 tok/s, Mean TTFT 331.77 ms, P99 TTFT 786.20 ms, Mean TPOT 43.45 ms
固定 QPS 多用户测试: num_prompts=200, request_rate=4, max_concurrency=16。更接近线上持续流量，平均每秒 4 个请求。

标签：人工智能纯水