[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评
- 内容介绍
- 文章标签
- 相关推荐
硬件配置
| 组件 | 规格 |
|---|---|
| CPU | Intel i5-13600K |
| GPU | RTX 4090 48G + RTX 4070Ti 12G |
| 内存 | DDR4-3600 128G (4x32G) |
| 主板 | 华硕 Z690-P D4 |
| 系统 | Windows 11 LTSC |
| WSL | Ubuntu 22.04 |
VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-caching --attention-backend FLASHINFER --served-model-name Qwen3.6-27B
速率(cherry studio):
image248×143 4.5 KB
generation_config.json:
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}
个人观点:我不建议使用任何非官方出品的蒸馏、量化版本,GGUF等。之前在3.5的时候,我几乎体验遍了所有的其他模型,体验感非常差。特别是ollama、lm studio这类方式部署的,完全和官方出品的不是一个层级的(并非精度问题)。
结论(非数据党,纯体感):3.6比3.5强非常多!特别是长任务,多级tools调用上。表现非常优异!目前VLLM开启MTP速率在45tok/s左右,坐等SGLang支持,目前SGLang对FP8兼容有BUG,会胡言乱语,看issuse有修复,还没合并,SGLang在3.5可以达到60tok/s
以下多图杀猫
主体验Hermes
截图继续上下文工作,ocr能力优秀。
image1138×827 108 KB
26次工具连续调用不犯浑
image1071×669 56.3 KB
自我debug,以前3.5不会主动提自己能知道怎么修某些bug。(可能存在认知偏差)
image1124×1032 131 KB
复合型长难skill完成度优秀!接近gpt-5.4水准。
image1148×2076 338 KB
内容赏析
image1588×2046 653 KB
image1588×1286 347 KB
显存占用:
image1145×842 43.2 KB
佬友们有什么想要测评的,可以留言!
网友解答:--【壹】--:
是的佬 看到就把它删了,问了个蠢问题
2张卡应该到不了256k吧,是因为 KV Cache 用 FP8 压缩了吗?
--【贰】--:
加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了,之前占满也只能 200k,现在 0.9 就 256k 了
--【叁】--:
要是与和 minimax2.7 比咋样?
--【肆】--:
这么强的么?我的看法是本地小模型适合用来处理清洗一些数据,做总结,然后继续喂给云端大模型,这个思路的话那看起来3.6的27B完全可用了吧
--【伍】--:
kv cache fp8可以。如果fp16那肯定不够,大概剩一半。
2张卡是指24Gx2吗?
fp8肯定可以的
--【陆】--:
我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES
--【柒】--:
只有一张2080Ti 22G,周末想问问本地模型,感觉太鸡肋。只能部署个小模型写写文章。
--【捌】--:
佬友,5090可以部署一个不?纯新手,有什么教程入坑不
--【玖】--:
sglang一直都很佛系。我不是很喜欢vllm,但是没办法,最近free不好注册了,不然我也没啥心情玩本地部署哈哈,
--【拾】--:
没得比,27b对标397b,a3b说实话,写写文本工作还行。
--【拾壹】--:
我在 sglang 下面部署了,感觉不是很惊艳,难道是佬说的,目前SGLang对FP8兼容有BUG,会胡言乱语 这个问题。
话说 sglang 已经两周都没有发版了,生产队的驴都不能这么休息
--【拾贰】--: Piscesbody:
–tensor-parallel-size 1
对于–tensor-parallel-size 2的情况,目前WSL好像没有太好的方案,NCCL报错,无法完成双卡通信。不知道佬有没有解决办法
--【拾叁】--:
如果硬件条件允许的话,这个模型确实比3.5进步非常多,我3.5晾了有一段时间,天天玩gpt-5.4,但是这会转回来3.6,我使用感觉差异不大,3.5的时候还是能明显感觉出来智商决策比较落伍。
--【拾肆】--:
显存不够,模型30.9B,上下文128k都做不到。等官方看看会不会出nvfp4,否则比较难。32G着实尴尬。
--【拾伍】--:
佬、RTX8000 48g显存 能跑fp8 吗
--【拾陆】--:
3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少
--【拾柒】--:
配置文件里面写了,–max-model-len 262144,也就是256k
--【拾捌】--:
准备拿公司电脑按你的方式部署一下,146g显存部署非官方的版本一直报错,我靠
硬件配置
| 组件 | 规格 |
|---|---|
| CPU | Intel i5-13600K |
| GPU | RTX 4090 48G + RTX 4070Ti 12G |
| 内存 | DDR4-3600 128G (4x32G) |
| 主板 | 华硕 Z690-P D4 |
| 系统 | Windows 11 LTSC |
| WSL | Ubuntu 22.04 |
VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-caching --attention-backend FLASHINFER --served-model-name Qwen3.6-27B
速率(cherry studio):
image248×143 4.5 KB
generation_config.json:
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}
个人观点:我不建议使用任何非官方出品的蒸馏、量化版本,GGUF等。之前在3.5的时候,我几乎体验遍了所有的其他模型,体验感非常差。特别是ollama、lm studio这类方式部署的,完全和官方出品的不是一个层级的(并非精度问题)。
结论(非数据党,纯体感):3.6比3.5强非常多!特别是长任务,多级tools调用上。表现非常优异!目前VLLM开启MTP速率在45tok/s左右,坐等SGLang支持,目前SGLang对FP8兼容有BUG,会胡言乱语,看issuse有修复,还没合并,SGLang在3.5可以达到60tok/s
以下多图杀猫
主体验Hermes
截图继续上下文工作,ocr能力优秀。
image1138×827 108 KB
26次工具连续调用不犯浑
image1071×669 56.3 KB
自我debug,以前3.5不会主动提自己能知道怎么修某些bug。(可能存在认知偏差)
image1124×1032 131 KB
复合型长难skill完成度优秀!接近gpt-5.4水准。
image1148×2076 338 KB
内容赏析
image1588×2046 653 KB
image1588×1286 347 KB
显存占用:
image1145×842 43.2 KB
佬友们有什么想要测评的,可以留言!
网友解答:--【壹】--:
是的佬 看到就把它删了,问了个蠢问题
2张卡应该到不了256k吧,是因为 KV Cache 用 FP8 压缩了吗?
--【贰】--:
加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了,之前占满也只能 200k,现在 0.9 就 256k 了
--【叁】--:
要是与和 minimax2.7 比咋样?
--【肆】--:
这么强的么?我的看法是本地小模型适合用来处理清洗一些数据,做总结,然后继续喂给云端大模型,这个思路的话那看起来3.6的27B完全可用了吧
--【伍】--:
kv cache fp8可以。如果fp16那肯定不够,大概剩一半。
2张卡是指24Gx2吗?
fp8肯定可以的
--【陆】--:
我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES
--【柒】--:
只有一张2080Ti 22G,周末想问问本地模型,感觉太鸡肋。只能部署个小模型写写文章。
--【捌】--:
佬友,5090可以部署一个不?纯新手,有什么教程入坑不
--【玖】--:
sglang一直都很佛系。我不是很喜欢vllm,但是没办法,最近free不好注册了,不然我也没啥心情玩本地部署哈哈,
--【拾】--:
没得比,27b对标397b,a3b说实话,写写文本工作还行。
--【拾壹】--:
我在 sglang 下面部署了,感觉不是很惊艳,难道是佬说的,目前SGLang对FP8兼容有BUG,会胡言乱语 这个问题。
话说 sglang 已经两周都没有发版了,生产队的驴都不能这么休息
--【拾贰】--: Piscesbody:
–tensor-parallel-size 1
对于–tensor-parallel-size 2的情况,目前WSL好像没有太好的方案,NCCL报错,无法完成双卡通信。不知道佬有没有解决办法
--【拾叁】--:
如果硬件条件允许的话,这个模型确实比3.5进步非常多,我3.5晾了有一段时间,天天玩gpt-5.4,但是这会转回来3.6,我使用感觉差异不大,3.5的时候还是能明显感觉出来智商决策比较落伍。
--【拾肆】--:
显存不够,模型30.9B,上下文128k都做不到。等官方看看会不会出nvfp4,否则比较难。32G着实尴尬。
--【拾伍】--:
佬、RTX8000 48g显存 能跑fp8 吗
--【拾陆】--:
3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少
--【拾柒】--:
配置文件里面写了,–max-model-len 262144,也就是256k
--【拾捌】--:
准备拿公司电脑按你的方式部署一下,146g显存部署非官方的版本一直报错,我靠

![[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评](/imgrand/Y2khWzvL.webp)