[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评

2026-04-29 08:072阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

硬件配置

组件	规格
CPU	Intel i5-13600K
GPU	RTX 4090 48G + RTX 4070Ti 12G
内存	DDR4-3600 128G (4x32G)
主板	华硕 Z690-P D4
系统	Windows 11 LTSC
WSL	Ubuntu 22.04

VLLM版本：0.19.1
部署指令：
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数：
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-caching --attention-backend FLASHINFER --served-model-name Qwen3.6-27B

速率（cherry studio）：
image248×143 4.5 KB

generation_config.json：
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}

个人观点：我不建议使用任何非官方出品的蒸馏、量化版本，GGUF等。之前在3.5的时候，我几乎体验遍了所有的其他模型，体验感非常差。特别是ollama、lm studio这类方式部署的，完全和官方出品的不是一个层级的（并非精度问题）。

结论（非数据党，纯体感）：3.6比3.5强非常多！特别是长任务，多级tools调用上。表现非常优异！目前VLLM开启MTP速率在45tok/s左右，坐等SGLang支持，目前SGLang对FP8兼容有BUG，会胡言乱语，看issuse有修复，还没合并，SGLang在3.5可以达到60tok/s

以下多图杀猫
主体验Hermes

截图继续上下文工作，ocr能力优秀。
image1138×827 108 KB

26次工具连续调用不犯浑
image1071×669 56.3 KB

自我debug，以前3.5不会主动提自己能知道怎么修某些bug。（可能存在认知偏差）
image1124×1032 131 KB

复合型长难skill完成度优秀！接近gpt-5.4水准。
image1148×2076 338 KB

内容赏析
image1588×2046 653 KB
image1588×1286 347 KB

显存占用：
image1145×842 43.2 KB

佬友们有什么想要测评的，可以留言！

网友解答：

--【壹】--：

是的佬看到就把它删了，问了个蠢问题
2张卡应该到不了256k吧，是因为 KV Cache 用 FP8 压缩了吗？

--【贰】--：

加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了，之前占满也只能 200k，现在 0.9 就 256k 了

--【叁】--：

要是与和 minimax2.7 比咋样?

--【肆】--：

这么强的么？我的看法是本地小模型适合用来处理清洗一些数据，做总结，然后继续喂给云端大模型，这个思路的话那看起来3.6的27B完全可用了吧

--【伍】--：

kv cache fp8可以。如果fp16那肯定不够，大概剩一半。
2张卡是指24Gx2吗？
fp8肯定可以的

--【陆】--：

我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES

--【柒】--：

只有一张2080Ti 22G，周末想问问本地模型，感觉太鸡肋。只能部署个小模型写写文章。

--【捌】--：

佬友，5090可以部署一个不？纯新手，有什么教程入坑不

--【玖】--：

sglang一直都很佛系。我不是很喜欢vllm，但是没办法，最近free不好注册了，不然我也没啥心情玩本地部署哈哈，

--【拾】--：

没得比，27b对标397b，a3b说实话，写写文本工作还行。

--【拾壹】--：

我在 sglang 下面部署了，感觉不是很惊艳，难道是佬说的，目前SGLang对FP8兼容有BUG，会胡言乱语 这个问题。
话说 sglang 已经两周都没有发版了，生产队的驴都不能这么休息

--【拾贰】--： Piscesbody:

–tensor-parallel-size 1

对于–tensor-parallel-size 2的情况，目前WSL好像没有太好的方案，NCCL报错，无法完成双卡通信。不知道佬有没有解决办法

--【拾叁】--：

如果硬件条件允许的话，这个模型确实比3.5进步非常多，我3.5晾了有一段时间，天天玩gpt-5.4，但是这会转回来3.6，我使用感觉差异不大，3.5的时候还是能明显感觉出来智商决策比较落伍。

--【拾肆】--：

显存不够，模型30.9B，上下文128k都做不到。等官方看看会不会出nvfp4，否则比较难。32G着实尴尬。

--【拾伍】--：

佬、RTX8000 48g显存能跑fp8 吗

--【拾陆】--：

3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少

--【拾柒】--：

配置文件里面写了，–max-model-len 262144,也就是256k

--【拾捌】--：

准备拿公司电脑按你的方式部署一下，146g显存部署非官方的版本一直报错，我靠

标签：人工智能

问题描述：

硬件配置

组件	规格
CPU	Intel i5-13600K
GPU	RTX 4090 48G + RTX 4070Ti 12G
内存	DDR4-3600 128G (4x32G)
主板	华硕 Z690-P D4
系统	Windows 11 LTSC
WSL	Ubuntu 22.04

速率（cherry studio）：
image248×143 4.5 KB

generation_config.json：
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}

个人观点：我不建议使用任何非官方出品的蒸馏、量化版本，GGUF等。之前在3.5的时候，我几乎体验遍了所有的其他模型，体验感非常差。特别是ollama、lm studio这类方式部署的，完全和官方出品的不是一个层级的（并非精度问题）。

结论（非数据党，纯体感）：3.6比3.5强非常多！特别是长任务，多级tools调用上。表现非常优异！目前VLLM开启MTP速率在45tok/s左右，坐等SGLang支持，目前SGLang对FP8兼容有BUG，会胡言乱语，看issuse有修复，还没合并，SGLang在3.5可以达到60tok/s

以下多图杀猫
主体验Hermes

截图继续上下文工作，ocr能力优秀。
image1138×827 108 KB

26次工具连续调用不犯浑
image1071×669 56.3 KB

自我debug，以前3.5不会主动提自己能知道怎么修某些bug。（可能存在认知偏差）
image1124×1032 131 KB

复合型长难skill完成度优秀！接近gpt-5.4水准。
image1148×2076 338 KB

内容赏析
image1588×2046 653 KB
image1588×1286 347 KB

显存占用：
image1145×842 43.2 KB

佬友们有什么想要测评的，可以留言！

网友解答：

--【壹】--：

是的佬看到就把它删了，问了个蠢问题
2张卡应该到不了256k吧，是因为 KV Cache 用 FP8 压缩了吗？

--【贰】--：

加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了，之前占满也只能 200k，现在 0.9 就 256k 了

--【叁】--：

要是与和 minimax2.7 比咋样?

--【肆】--：

这么强的么？我的看法是本地小模型适合用来处理清洗一些数据，做总结，然后继续喂给云端大模型，这个思路的话那看起来3.6的27B完全可用了吧

--【伍】--：

kv cache fp8可以。如果fp16那肯定不够，大概剩一半。
2张卡是指24Gx2吗？
fp8肯定可以的

--【陆】--：

我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES

--【柒】--：

只有一张2080Ti 22G，周末想问问本地模型，感觉太鸡肋。只能部署个小模型写写文章。

--【捌】--：

佬友，5090可以部署一个不？纯新手，有什么教程入坑不

--【玖】--：

sglang一直都很佛系。我不是很喜欢vllm，但是没办法，最近free不好注册了，不然我也没啥心情玩本地部署哈哈，

--【拾】--：

没得比，27b对标397b，a3b说实话，写写文本工作还行。

--【拾壹】--：

--【拾贰】--： Piscesbody:

–tensor-parallel-size 1

对于–tensor-parallel-size 2的情况，目前WSL好像没有太好的方案，NCCL报错，无法完成双卡通信。不知道佬有没有解决办法

--【拾叁】--：

--【拾肆】--：

显存不够，模型30.9B，上下文128k都做不到。等官方看看会不会出nvfp4，否则比较难。32G着实尴尬。

--【拾伍】--：

佬、RTX8000 48g显存能跑fp8 吗

--【拾陆】--：

3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少

--【拾柒】--：

配置文件里面写了，–max-model-len 262144,也就是256k

--【拾捌】--：

准备拿公司电脑按你的方式部署一下，146g显存部署非官方的版本一直报错，我靠

标签：人工智能

硬件配置

相关推荐

硬件配置

相关推荐