【SGLang】4090 48G魔改部署 Qwen3.5-27B-FP8&35B A3B 一些心得经验分享。

2026-04-13 13:032阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

先介绍环境：
4090 48G
i5 13600k
ddr4 32Gx4
win11 LTSC
WSL2 Ubuntu22.04

目前性能结论（个人感受）：
4并发，单路50-60tok/s，kvcache fp8 310k缓存池子，显存总占用~46G。
主要使用环境openclaw、opencode
工具tools遵循度完美，长任务执行完美。
不建议使用社区微调的opus、gguf、或者其他非官方版本。（我全踩过，都没有官方的好使！！！）
长时间使用无任何断流、tools调用出错等情况出现。

————————————————————————————————————
SGLang 部署在WSL2 Ubuntu22.04中（后续为了简化，我只写WSL2）。
虚拟环境部署比docker容器部署在prefill阶段高10%性能。（如果为了省事，直接docker）

1.安装指令

pip install --upgrade pip pip install uv # 创建虚拟环境 uv venv sglang-env source sglang-env/bin/activate #cuda130 pytorch安装 uv pip install torch==2.10.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu130 #安装sglang uv pip install sglang uv pip install "https://github.com/sgl-project/whl/releases/download/v0.4.0/sglang_kernel-0.4.0+cu130-cp310-abi3-manylinux2014_x86_64.whl"

sglang官方安装指南 SGlang官方安装指南

————————————————————————————————————
HuggingFace：Qwen3.5-27B-FP8

小Tip：不一定对所有网络有效

奉天联通：使用huggingface cli进行下载，可以在开梯子拉取模型后，将梯子切回直联，能达到满速down 模型的速度。具体安装方法可去搜索一下。要记得装hf-xet 完事在cli中只要输入: hf download Qwen/Qwen3.5-27B-FP8 --local-dir F:\下载\huggingface\Qwen/Qwen3.5-27B-FP8 拉取进度后直接改直联，享受满速down。

————————————————————————————————————

2.启动参数

#这个路径改为你虚拟环境的路径 readonly SGLANG_VENV="/root/sglang-env" #将模型放置在wsl空间内，加载速度更快 readonly MODEL_PATH="/root/LLM/Qwen3.5-27B-FP8" readonly SERVED_MODEL_NAME="Qwen3.5-27B-FP8" readonly HOST="0.0.0.0" readonly PORT="8778" # Cache directories 可设可不设，我测试用的 readonly HF_HOME="/root/.cache/huggingface" readonly TRITON_CACHE_DIR="/root/sglang_cache/triton/cache" readonly TORCHINDUCTOR_CACHE_DIR="/root/sglang_cache/torch_compile" readonly FLASH_ATTENTION_CUTE_CACHE_DIR="/root/sglang_cache/flash_attn_cute_cache" # Runtime environment export PYTORCH_ALLOC_CONF="expandable_segments:True" export CUDA_DEVICE_ORDER="PCI_BUS_ID" export CUDA_VISIBLE_DEVICES="0" export TORCHINDUCTOR_CACHE_DIR export TRITON_CACHE_DIR export FLASH_ATTENTION_CUTE_DSL_CACHE_ENABLED="1" export FLASH_ATTENTION_CUTE_DSL_CACHE_DIR="${FLASH_ATTENTION_CUTE_CACHE_DIR}" # xxxxx改为你自己的api key，不填也行 export HF_TOKEN="${HF_TOKEN:-xxxxxxxxxxxx}" SGLANG_ARGS=( --model-path "${MODEL_PATH}" --served-model-name "${SERVED_MODEL_NAME}" --host "${HOST}" --port "${PORT}" --tensor-parallel-size 1 --trust-remote-code --attention-backend flashinfer --reasoning-parser qwen3 --tool-call-parser qwen3_coder --kv-cache-dtype fp8_e4m3 --max-running-requests 4 # 这里指分配给模型+上下文的空间占比0.89等于89%，这里属于微调参数，大了其他服务启动时候oom，小了模型+上下文设置不够启动不起来。 --mem-fraction-static 0.89 --mamba-scheduler-strategy extra_buffer --mamba-backend flashinfer --page-size 8 --enable-dynamic-chunking --schedule-policy lpm --schedule-conservativeness 0.5 --stream-interval 1 --chunked-prefill-size 4096 --speculative-algorithm NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 --radix-eviction-policy lfu --mamba-ssm-dtype bfloat16 #这个参数吃非常大的显存，默认是0.9，支持100路并发，如果内存还吃紧，改0.1也无所谓，0.1都支持6路并发。 --mamba-full-memory-ratio 0.2 --cuda-graph-max-bs 8 --num-continuous-decode-steps 2 --prefill-max-requests 4 )

所有参数源于官方文档：sglang官方文档
可将每个参数复制到文档中搜索有详解。更简单的方式是丢给龙虾（或者其他agent）让它帮你翻译。

————————————————————————————————————

3.实测性能（偏主观）

启动时长（热重启）–45秒，冷启动会久一些。模型需要加载进内存，后再进入显存，以及乱七八糟初始化。

image677×144 7 KB
image597×110 5.13 KB

显存占用情况：
image414×444 8.53 KB

首次对话prefill到Decode性能
image1211×488 36.2 KB

mamba前缀缓存命中表现非常完美：
image1201×467 37 KB
玩虾和opencode的时候，体验感非常的好，长任务多轮对话，秒响应。

我不会什么压测，或者什么其他的专业测试工具。欢迎大佬指正、指点！

附上脚本，方便快速启动和调参。
启动脚本.zip (2.0 KB)
食用方法：改conf.sh中的虚拟环境路径、以及模型路径
然后./start-sglang-qwen35-full.sh即可。

补充内容：
该配置同样适用于35B-A3B-FP8，但是需要把投机预测(MTP)关闭，因为35B-Moe本身的性能已经非常强了，没有必要再上这个，反而会因为吃资源出现性能拖累。
注释掉以下参数：

# --speculative-algorithm NEXTN # --speculative-num-steps 3 # --speculative-eagle-topk 1 # --speculative-num-draft-tokens 4

更换模型路径，其他保持不变。
35B智商没有27B高，贵在神速，我用它打STS2（杀戮尖塔2）还不错，调教了一天，最高战绩27层。（用的开源mcp框架，有兴趣后续可以开贴一起玩。）

引用一下水贴，有兴趣可以看一下哈哈：【焦虑】想做点社区贡献，但是又焦虑内耗。

网友解答：

--【壹】--：

感谢佬友分享，我公司刚刚有4块闲置T4部署来玩玩

--【贰】--：

谢谢佬，我们也近期在准备部署本地的模型。4张4090 24G的，看了看这个显存情况来说，计划部署千问3.5-122B-A10B-GPTQ-Int4 来用。27B的总感觉参数少了点，96G的总显存，跑几个27B的感觉差点意思

--【叁】--：

感谢佬友分享

--【肆】--：

佬友，这个显存占用是咋显示的，是手动计算的吗

--【伍】--：

5090x2部署方案（Linux CUDA 12.9 容器环境）

export SGLANG_USE_MODELSCOPE=1 export SGLANG_ENABLE_SPEC_V2=1 export SGLANG_MAMBA_CONV_DTYPE=float16 python -m sglang.launch_server \ --model-path "Qwen/Qwen3.5-35B-A3B-GPTQ-Int4" \ --served-model-name "qwen3.5-35b" \ --tp 2 \ --dtype float16 \ --quantization moe_wna16 \ --context-length 263144 \ --mem-fraction-static 0.80 \ --max-running-requests 32 \ --chunked-prefill-size 16384 \ --mamba-scheduler-strategy extra_buffer \ --enable-flashinfer-allreduce-fusion \ --speculative-algorithm EAGLE \ --speculative-eagle-topk 1 \ --speculative-num-steps 3 \ --speculative-num-draft-tokens 4 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --grammar-backend xgrammar \ --enable-custom-logit-processor \ --enable-cache-report \ --enable-metrics \ --host 0.0.0.0 \ --port 20080 \

压测：

输入长度	输出长度	并发数	ITPS	OTPS
1k	1k	1	4460	230
25k	1k	32	13978	916
50k	1k	16	17933	588
100k	1k	8	13508	248
200k	1k	4	11456	201

--【陆】--：

我现在没怎么关注，但是老店问题都不大，如果有机房隔离噪音就直接上涡轮卡，如果没有办法隔离噪音，那就要想办法改水冷。
这类卡现在就怕二次翻新，因为毕竟出来1年多了。当初第一批卡又很有可能回去又翻了一圈回来了。选老店有个好处就是能坚挺一年，当然如果你能直接线下更好。更稳妥。
我当时心比较大，到手没几个月，自己研究改水冷，还被坑了几次，硬是没把卡整报废。

--【柒】--：

25年1月，是比较早吃螃蟹的人了。当时23k币入的，我当时在b站做了个评测视频，然后拉了个群，很多买的朋友都在里面，我目前得知出问题返修的卡也就2张，我自己这张服役一年多，没啥事。
另外我自己改了水冷，主要是原卡涡轮噪音太大了，不适合家用。
改水冷以后，基本上满载也就65°，除了GPU，显存散热也要照顾到。
反正我觉得挺香的，当时有一批人入了4090D 48G的，我觉得更香，差了5k好像。

--【捌】--：

买了一年没掉价哈哈，我记得最低价的时候20k都有拿到的，正经公司肯定不太信任魔改，但是对于性价比来说，这卡无敌。改水冷以后非常抗造。而且保修还有B站张哥，不怕

--【玖】--：

佬你买的魔改的48G花了多少钱？稳定不用的，会不会有啥暗病，我现在感觉24G显存单卡远远不够

--【拾】--：

顺带贴一个issue： [Bug] custom_logit_processor is skipped in SPEC_V2 verify steps · Issue #21724 · sgl-project/sglang · GitHub

--【拾壹】--：

你其实可以都测一下，有时候性能不代表体验。但是122B的吞吐一定是比27B强的。
我是榨干了自己的单卡性能，要不是有公益服，让我没有那么执着本地，不然我高低又搞一张48G。哈哈，我非常想要上122B（397B要升级太多，够不上）

--【拾贰】--：

你们真厉害,手里有那么多好货

--【拾叁】--：

35b没必要开mtp，意义不大。所以v2也不是必选项。
另外你如果用得上32并发的话，我也建议你把mamba ratio调小，0.5即可，这玩意占了大量显存，你改完以后会发现多了很多显存，给上下文不香吗。

--【拾肆】--：

96GB 显存可以跑 Qwen3.5-122B-A10B-GPTQ-Int4，官方的可能会稍微多占些显存，资源需要多些

--【拾伍】--：

复制启动log，给ai，让它列的，所以我用的截图（谨记社区准则）

--【拾陆】--：

谢谢大佬分享

--【拾柒】--：

两万三 48G显存也是香的不行了

现在魔改的不敢用了，主要是公司场景用

--【拾捌】--：

还有卖的渠道不，我当个备选方案~佬

--【拾玖】--：

目前我这里部署，max batch token在550k左右，反正是够用的。
我这边部署是多用户环境，吞吐量比较重要，mtp基本上是刚需。

标签：人工智能

问题描述：

先介绍环境：
4090 48G
i5 13600k
ddr4 32Gx4
win11 LTSC
WSL2 Ubuntu22.04

1.安装指令

sglang官方安装指南 SGlang官方安装指南

————————————————————————————————————
HuggingFace：Qwen3.5-27B-FP8

小Tip：不一定对所有网络有效

————————————————————————————————————

2.启动参数

所有参数源于官方文档：sglang官方文档
可将每个参数复制到文档中搜索有详解。更简单的方式是丢给龙虾（或者其他agent）让它帮你翻译。

————————————————————————————————————

3.实测性能（偏主观）

启动时长（热重启）–45秒，冷启动会久一些。模型需要加载进内存，后再进入显存，以及乱七八糟初始化。

image677×144 7 KB
image597×110 5.13 KB

显存占用情况：
image414×444 8.53 KB

首次对话prefill到Decode性能
image1211×488 36.2 KB

mamba前缀缓存命中表现非常完美：
image1201×467 37 KB
玩虾和opencode的时候，体验感非常的好，长任务多轮对话，秒响应。

我不会什么压测，或者什么其他的专业测试工具。欢迎大佬指正、指点！

附上脚本，方便快速启动和调参。
启动脚本.zip (2.0 KB)
食用方法：改conf.sh中的虚拟环境路径、以及模型路径
然后./start-sglang-qwen35-full.sh即可。

# --speculative-algorithm NEXTN # --speculative-num-steps 3 # --speculative-eagle-topk 1 # --speculative-num-draft-tokens 4

引用一下水贴，有兴趣可以看一下哈哈：【焦虑】想做点社区贡献，但是又焦虑内耗。

网友解答：

--【壹】--：

感谢佬友分享，我公司刚刚有4块闲置T4部署来玩玩

--【贰】--：

--【叁】--：

感谢佬友分享

--【肆】--：

佬友，这个显存占用是咋显示的，是手动计算的吗

--【伍】--：

5090x2部署方案（Linux CUDA 12.9 容器环境）

压测：

输入长度	输出长度	并发数	ITPS	OTPS
1k	1k	1	4460	230
25k	1k	32	13978	916
50k	1k	16	17933	588
100k	1k	8	13508	248
200k	1k	4	11456	201

--【陆】--：

--【柒】--：

--【捌】--：

--【玖】--：

佬你买的魔改的48G花了多少钱？稳定不用的，会不会有啥暗病，我现在感觉24G显存单卡远远不够

--【拾】--：

顺带贴一个issue： [Bug] custom_logit_processor is skipped in SPEC_V2 verify steps · Issue #21724 · sgl-project/sglang · GitHub

--【拾壹】--：

--【拾贰】--：

你们真厉害,手里有那么多好货

--【拾叁】--：

--【拾肆】--：

96GB 显存可以跑 Qwen3.5-122B-A10B-GPTQ-Int4，官方的可能会稍微多占些显存，资源需要多些

--【拾伍】--：

复制启动log，给ai，让它列的，所以我用的截图（谨记社区准则）

--【拾陆】--：

谢谢大佬分享

--【拾柒】--：

两万三 48G显存也是香的不行了

现在魔改的不敢用了，主要是公司场景用

--【拾捌】--：

还有卖的渠道不，我当个备选方案~佬

--【拾玖】--：

目前我这里部署，max batch token在550k左右，反正是够用的。
我这边部署是多用户环境，吞吐量比较重要，mtp基本上是刚需。

标签：人工智能

1.安装指令

2.启动参数

3.实测性能（偏主观）

启动时长（热重启）–45秒，冷启动会久一些。模型需要加载进内存，后再进入显存，以及乱七八糟初始化。

相关推荐

1.安装指令

2.启动参数

3.实测性能（偏主观）

启动时长（热重启）–45秒，冷启动会久一些。模型需要加载进内存，后再进入显存，以及乱七八糟初始化。

相关推荐