[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评
- 内容介绍
- 文章标签
- 相关推荐
硬件配置
| 组件 | 规格 |
|---|---|
| CPU | Intel i5-13600K |
| GPU | RTX 4090 48G + RTX 4070Ti 12G |
| 内存 | DDR4-3600 128G (4x32G) |
| 主板 | 华硕 Z690-P D4 |
| 系统 | Windows 11 LTSC |
| WSL | Ubuntu 22.04 |
VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-cachin
硬件配置
| 组件 | 规格 |
|---|---|
| CPU | Intel i5-13600K |
| GPU | RTX 4090 48G + RTX 4070Ti 12G |
| 内存 | DDR4-3600 128G (4x32G) |
| 主板 | 华硕 Z690-P D4 |
| 系统 | Windows 11 LTSC |
| WSL | Ubuntu 22.04 |
VLLM版本:0.19.1
部署指令:
uv venv vllm-env --python 3.12 --seed --managed-python
source vllm-env/bin/activate
uv pip install vllm --torch-backend=auto
启动参数:
vllm serve /root/LLM/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config ‘{“method”:“qwen3_next_mtp”,“num_speculative_tokens”:2}’ --kv-cache-dtype fp8 --gpu-memory-utilization 0.92 --max-num-seqs 4 --max-num-batched-tokens 4096 --enable-prefix-cachin

![[Qwen3.6]27B-FP8 VLLM本地部署主观个人测评](/imgrand/Y2khWzvL.webp)