昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试
- 内容介绍
- 文章标签
- 相关推荐
老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)
先去吃个饭,吃完再来看一下
网友解答:--【壹】--:
佬、你这复现机器是什么配置,内存,显存,显卡多少?
--【贰】--:
卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?
--【叁】--:
佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想
--【肆】--:
这个配置什么价位啊?
还有290~480的速度还慢?
--【伍】--:
我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。
--【陆】--:
佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬
--【柒】--:
听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S
--【捌】--:
这个模型质量怎么样呀?比如说回复的质量速度什么的。
--【玖】--:
性能炸裂了,我4卡4090只能等大佬的量化版本了…
--【拾】--:
昇腾适配deepseek最新的模型这么快的么
--【拾壹】--:
佬说得对,实际还得接入业务里使用看看。我也只是先按照流程走一遍这个数据集
--【拾贰】--:
佬,你是用来做开发任务的吗?会接在cc里用吗?
--【拾叁】--:
8卡的910B吗,我也有个8卡的机器想要部署一下
--【拾肆】--:
还没投入实际使用,效果还不清楚。我部署的是量化的flash模型,要8张卡。npu的模型适配比起之前已经要好很多了,照着文档走基本不会踩坑了
--【拾伍】--:
GSM8K 对现在的模型真的有区分度吗……
--【拾陆】--:
{
“model”: “DeepSeek-V4-Flash”,
“model_variant”: “w8a8-mtp”,
“eval_tool”: “lm-eval v0.4.9.1”,
“serving_engine”: “vLLM (Ascend NPU)”,
“server_info”: {
“os”: “openEuler 22.03 (LTS-SP3)”,
“arch”: “aarch64”,
“cpu”: “Kunpeng-920 7265”,
“cpu_cores”: 256,
“numa_nodes”: 8
},
“benchmarks”: {
“gsm8k”: {
“version”: 3.0,
“num_samples”: 1319,
“num_fewshot”: 5,
“metrics”: {
“strict_match”: {
“accuracy”: 0.9515,
“stderr”: 0.0059
},
“flexible_extract”: {
“accuracy”: 0.9507,
“stderr”: 0.0060
}
}
}
},
“eval_config”: {
“num_concurrent”: 10,
“temperature”: 0.0,
“do_sample”: false,
“max_length”: 2047,
“total_time_seconds”: 2756.37
}
}
这是结果
--【拾柒】--:
我的我的,我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)
--【拾捌】--:
怪我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)
--【拾玖】--:
华为的昇腾910B,2t内存,512G显存
老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)
先去吃个饭,吃完再来看一下
网友解答:--【壹】--:
佬、你这复现机器是什么配置,内存,显存,显卡多少?
--【贰】--:
卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?
--【叁】--:
佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想
--【肆】--:
这个配置什么价位啊?
还有290~480的速度还慢?
--【伍】--:
我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。
--【陆】--:
佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬
--【柒】--:
听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S
--【捌】--:
这个模型质量怎么样呀?比如说回复的质量速度什么的。
--【玖】--:
性能炸裂了,我4卡4090只能等大佬的量化版本了…
--【拾】--:
昇腾适配deepseek最新的模型这么快的么
--【拾壹】--:
佬说得对,实际还得接入业务里使用看看。我也只是先按照流程走一遍这个数据集
--【拾贰】--:
佬,你是用来做开发任务的吗?会接在cc里用吗?
--【拾叁】--:
8卡的910B吗,我也有个8卡的机器想要部署一下
--【拾肆】--:
还没投入实际使用,效果还不清楚。我部署的是量化的flash模型,要8张卡。npu的模型适配比起之前已经要好很多了,照着文档走基本不会踩坑了
--【拾伍】--:
GSM8K 对现在的模型真的有区分度吗……
--【拾陆】--:
{
“model”: “DeepSeek-V4-Flash”,
“model_variant”: “w8a8-mtp”,
“eval_tool”: “lm-eval v0.4.9.1”,
“serving_engine”: “vLLM (Ascend NPU)”,
“server_info”: {
“os”: “openEuler 22.03 (LTS-SP3)”,
“arch”: “aarch64”,
“cpu”: “Kunpeng-920 7265”,
“cpu_cores”: 256,
“numa_nodes”: 8
},
“benchmarks”: {
“gsm8k”: {
“version”: 3.0,
“num_samples”: 1319,
“num_fewshot”: 5,
“metrics”: {
“strict_match”: {
“accuracy”: 0.9515,
“stderr”: 0.0059
},
“flexible_extract”: {
“accuracy”: 0.9507,
“stderr”: 0.0060
}
}
}
},
“eval_config”: {
“num_concurrent”: 10,
“temperature”: 0.0,
“do_sample”: false,
“max_length”: 2047,
“total_time_seconds”: 2756.37
}
}
这是结果
--【拾柒】--:
我的我的,我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)
--【拾捌】--:
怪我没说清楚。10个请求每秒290~480 个tokens是Prompt throughput。
Generation throughput 输出才34~85 tokens/s( ~3.4~8.5 tokens/s)
--【拾玖】--:
华为的昇腾910B,2t内存,512G显存

