昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试

2026-04-29 08:532阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

老登们下班了，现在可以霍霍服务器了
vllm-ascend部署文档： DeepSeek-V4 — vllm-ascend
模型：DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功：
image1920×1066 661 KB
先问一下洗车问题：
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K，数学推理能力)
image1942×890 79.1 KB
速度慢的发指，10个并发~290~480 tokens/s(毕竟只有一台机器，速度上不去)

先去吃个饭，吃完再来看一下

网友解答：

--【壹】--：

佬、你这复现机器是什么配置，内存，显存，显卡多少？

--【贰】--：

卡贵吗？整套配置大概花了多少，个人学习的做些小项目的话，佬有什么推荐的？

--【叁】--：

佬，个人学习的话用codex呀，量大管饱。至于这一整套我想都不敢想

--【肆】--：

这个配置什么价位啊？
还有290～480的速度还慢？

--【伍】--：

我现在只是先部署起来看一下效果。我们一般不会拿国模来开发，在内网环境里这些本地部署的模型更多的是应用在不同的agent里。

--【陆】--：

佬，我单位也打算用910b来部署大模型，用来ai coding，佬部署的v4-flash量化版用起来咋样，用来做开发够用吗？实际跑起来要多少张卡呀？我第一次接触华为的卡，很多不太清楚的想问问佬

--【柒】--：

听听这是人话么，10并发 290~480 TOKENS/S ，这速度慢的发指过分了哈，GPT-5.5才50 TOKENS/S

--【捌】--：

这个模型质量怎么样呀？比如说回复的质量速度什么的。

--【玖】--：

性能炸裂了，我4卡4090只能等大佬的量化版本了…

--【拾】--：

昇腾适配deepseek最新的模型这么快的么

--【拾壹】--：

佬说得对，实际还得接入业务里使用看看。我也只是先按照流程走一遍这个数据集

--【拾贰】--：

佬，你是用来做开发任务的吗？会接在cc里用吗？

--【拾叁】--：

8卡的910B吗，我也有个8卡的机器想要部署一下

--【拾肆】--：

还没投入实际使用，效果还不清楚。我部署的是量化的flash模型，要8张卡。npu的模型适配比起之前已经要好很多了，照着文档走基本不会踩坑了

--【拾伍】--：

GSM8K 对现在的模型真的有区分度吗……

--【拾陆】--：

{
“model”: “DeepSeek-V4-Flash”,
“model_variant”: “w8a8-mtp”,
“eval_tool”: “lm-eval v0.4.9.1”,
“serving_engine”: “vLLM (Ascend NPU)”,
“server_info”: {
“os”: “openEuler 22.03 (LTS-SP3)”,
“arch”: “aarch64”,
“cpu”: “Kunpeng-920 7265”,
“cpu_cores”: 256,
“numa_nodes”: 8
},
“benchmarks”: {
“gsm8k”: {
“version”: 3.0,
“num_samples”: 1319,
“num_fewshot”: 5,
“metrics”: {
“strict_match”: {
“accuracy”: 0.9515,
“stderr”: 0.0059
},
“flexible_extract”: {
“accuracy”: 0.9507,
“stderr”: 0.0060
}
}
}
},
“eval_config”: {
“num_concurrent”: 10,
“temperature”: 0.0,
“do_sample”: false,
“max_length”: 2047,
“total_time_seconds”: 2756.37
}
}
这是结果

--【拾柒】--：

我的我的，我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)

--【拾捌】--：

怪我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)

--【拾玖】--：

华为的昇腾910B，2t内存，512G显存

标签：人工智能