昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试
- 内容介绍
- 文章标签
- 相关推荐
老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)
先去吃个饭,吃完再来看一下
网友解答:--【壹】--:
佬、你这复现机器是什么配置,内存,显存,显卡多少?
--【贰】--:
卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?
--【叁】--:
佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想
--【肆】--:
这个配置什么价位啊?
还有290~480的速度还慢?
--【伍】--:
我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。
--【陆】--:
佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬
--【柒】--:
听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S
--【捌】--:
这个模型质量怎么样呀?比如说回复的质量速度什么的。
老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)
先去吃个饭,吃完再来看一下
网友解答:--【壹】--:
佬、你这复现机器是什么配置,内存,显存,显卡多少?
--【贰】--:
卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?
--【叁】--:
佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想
--【肆】--:
这个配置什么价位啊?
还有290~480的速度还慢?
--【伍】--:
我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。
--【陆】--:
佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬
--【柒】--:
听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S
--【捌】--:
这个模型质量怎么样呀?比如说回复的质量速度什么的。

