[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评

2026-04-29 08:072阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

硬件配置

组件 规格
CPU Intel i5-13600K
GPU RTX 4090 48G + RTX 4070Ti 12G
内存 DDR4-3600 128G (4x32G)
主板 华硕 Z690-P D4
系统 Windows 11 LTSC
WSL Ubuntu 22.04

VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-caching --attention-backend FLASHINFER --served-model-name Qwen3.6-27B

速率(cherry studio):
image248×143 4.5 KB

generation_config.json:
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}

个人观点:我不建议使用任何非官方出品的蒸馏、量化版本,GGUF等。之前在3.5的时候,我几乎体验遍了所有的其他模型,体验感非常差。特别是ollama、lm studio这类方式部署的,完全和官方出品的不是一个层级的(并非精度问题)。

结论(非数据党,纯体感):3.6比3.5强非常多!特别是长任务,多级tools调用上。表现非常优异!目前VLLM开启MTP速率在45tok/s左右,坐等SGLang支持,目前SGLang对FP8兼容有BUG,会胡言乱语,看issuse有修复,还没合并,SGLang在3.5可以达到60tok/s

以下多图杀猫
主体验Hermes

截图继续上下文工作,ocr能力优秀。
image1138×827 108 KB

26次工具连续调用不犯浑
image1071×669 56.3 KB

自我debug,以前3.5不会主动提自己能知道怎么修某些bug。(可能存在认知偏差)
image1124×1032 131 KB

复合型长难skill完成度优秀!接近gpt-5.4水准。
image1148×2076 338 KB

内容赏析
image1588×2046 653 KB
image1588×1286 347 KB

显存占用:
image1145×842 43.2 KB

佬友们有什么想要测评的,可以留言!

网友解答:
--【壹】--:

是的佬 看到就把它删了,问了个蠢问题
2张卡应该到不了256k吧,是因为 KV Cache 用 FP8 压缩了吗?


--【贰】--:

加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了,之前占满也只能 200k,现在 0.9 就 256k 了


--【叁】--:

要是与和 minimax2.7 比咋样?


--【肆】--:

这么强的么?我的看法是本地小模型适合用来处理清洗一些数据,做总结,然后继续喂给云端大模型,这个思路的话那看起来3.6的27B完全可用了吧


--【伍】--:

kv cache fp8可以。如果fp16那肯定不够,大概剩一半。
2张卡是指24Gx2吗?
fp8肯定可以的


--【陆】--:

我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES


--【柒】--:

只有一张2080Ti 22G,周末想问问本地模型,感觉太鸡肋。只能部署个小模型写写文章。


--【捌】--:

佬友,5090可以部署一个不?纯新手,有什么教程入坑不


--【玖】--:

sglang一直都很佛系。我不是很喜欢vllm,但是没办法,最近free不好注册了,不然我也没啥心情玩本地部署哈哈,


--【拾】--:

没得比,27b对标397b,a3b说实话,写写文本工作还行。


--【拾壹】--:

我在 sglang 下面部署了,感觉不是很惊艳,难道是佬说的,目前SGLang对FP8兼容有BUG,会胡言乱语 这个问题。
话说 sglang 已经两周都没有发版了,生产队的驴都不能这么休息


--【拾贰】--: Piscesbody:

–tensor-parallel-size 1

对于–tensor-parallel-size 2的情况,目前WSL好像没有太好的方案,NCCL报错,无法完成双卡通信。不知道佬有没有解决办法


--【拾叁】--:

如果硬件条件允许的话,这个模型确实比3.5进步非常多,我3.5晾了有一段时间,天天玩gpt-5.4,但是这会转回来3.6,我使用感觉差异不大,3.5的时候还是能明显感觉出来智商决策比较落伍。


--【拾肆】--:

显存不够,模型30.9B,上下文128k都做不到。等官方看看会不会出nvfp4,否则比较难。32G着实尴尬。


--【拾伍】--:

佬、RTX8000 48g显存 能跑fp8 吗


--【拾陆】--:

3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少


--【拾柒】--:

配置文件里面写了,–max-model-len 262144,也就是256k


--【拾捌】--:

准备拿公司电脑按你的方式部署一下,146g显存部署非官方的版本一直报错,我靠

标签:人工智能
问题描述:

硬件配置

组件 规格
CPU Intel i5-13600K
GPU RTX 4090 48G + RTX 4070Ti 12G
内存 DDR4-3600 128G (4x32G)
主板 华硕 Z690-P D4
系统 Windows 11 LTSC
WSL Ubuntu 22.04

VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-caching --attention-backend FLASHINFER --served-model-name Qwen3.6-27B

速率(cherry studio):
image248×143 4.5 KB

generation_config.json:
{‘temperature’: 1.0, ‘top_k’: 20, ‘top_p’: 0.95}

个人观点:我不建议使用任何非官方出品的蒸馏、量化版本,GGUF等。之前在3.5的时候,我几乎体验遍了所有的其他模型,体验感非常差。特别是ollama、lm studio这类方式部署的,完全和官方出品的不是一个层级的(并非精度问题)。

结论(非数据党,纯体感):3.6比3.5强非常多!特别是长任务,多级tools调用上。表现非常优异!目前VLLM开启MTP速率在45tok/s左右,坐等SGLang支持,目前SGLang对FP8兼容有BUG,会胡言乱语,看issuse有修复,还没合并,SGLang在3.5可以达到60tok/s

以下多图杀猫
主体验Hermes

截图继续上下文工作,ocr能力优秀。
image1138×827 108 KB

26次工具连续调用不犯浑
image1071×669 56.3 KB

自我debug,以前3.5不会主动提自己能知道怎么修某些bug。(可能存在认知偏差)
image1124×1032 131 KB

复合型长难skill完成度优秀!接近gpt-5.4水准。
image1148×2076 338 KB

内容赏析
image1588×2046 653 KB
image1588×1286 347 KB

显存占用:
image1145×842 43.2 KB

佬友们有什么想要测评的,可以留言!

网友解答:
--【壹】--:

是的佬 看到就把它删了,问了个蠢问题
2张卡应该到不了256k吧,是因为 KV Cache 用 FP8 压缩了吗?


--【贰】--:

加了 --kv-cache-dtype fp8 后终于跑起来 256k 的 27B FP8 了,之前占满也只能 200k,现在 0.9 就 256k 了


--【叁】--:

要是与和 minimax2.7 比咋样?


--【肆】--:

这么强的么?我的看法是本地小模型适合用来处理清洗一些数据,做总结,然后继续喂给云端大模型,这个思路的话那看起来3.6的27B完全可用了吧


--【伍】--:

kv cache fp8可以。如果fp16那肯定不够,大概剩一半。
2张卡是指24Gx2吗?
fp8肯定可以的


--【陆】--:

我没理解错的话这种不对称显存的vllm配置会用到4070TI吗?我手边3090+4070TI但是查资料好像都建议我指定CUDA_VISIBLE_DEVICES


--【柒】--:

只有一张2080Ti 22G,周末想问问本地模型,感觉太鸡肋。只能部署个小模型写写文章。


--【捌】--:

佬友,5090可以部署一个不?纯新手,有什么教程入坑不


--【玖】--:

sglang一直都很佛系。我不是很喜欢vllm,但是没办法,最近free不好注册了,不然我也没啥心情玩本地部署哈哈,


--【拾】--:

没得比,27b对标397b,a3b说实话,写写文本工作还行。


--【拾壹】--:

我在 sglang 下面部署了,感觉不是很惊艳,难道是佬说的,目前SGLang对FP8兼容有BUG,会胡言乱语 这个问题。
话说 sglang 已经两周都没有发版了,生产队的驴都不能这么休息


--【拾贰】--: Piscesbody:

–tensor-parallel-size 1

对于–tensor-parallel-size 2的情况,目前WSL好像没有太好的方案,NCCL报错,无法完成双卡通信。不知道佬有没有解决办法


--【拾叁】--:

如果硬件条件允许的话,这个模型确实比3.5进步非常多,我3.5晾了有一段时间,天天玩gpt-5.4,但是这会转回来3.6,我使用感觉差异不大,3.5的时候还是能明显感觉出来智商决策比较落伍。


--【拾肆】--:

显存不够,模型30.9B,上下文128k都做不到。等官方看看会不会出nvfp4,否则比较难。32G着实尴尬。


--【拾伍】--:

佬、RTX8000 48g显存 能跑fp8 吗


--【拾陆】--:

3.6这个27b稠密模型比3.6的35b的稀疏moe模型强多少


--【拾柒】--:

配置文件里面写了,–max-model-len 262144,也就是256k


--【拾捌】--:

准备拿公司电脑按你的方式部署一下,146g显存部署非官方的版本一直报错,我靠

标签:人工智能