昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试

2026-04-29 08:531阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)

先去吃个饭,吃完再来看一下

网友解答:
--【壹】--:

佬、你这复现机器是什么配置,内存,显存,显卡多少?


--【贰】--:

卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?


--【叁】--:

佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想


--【肆】--:

这个配置什么价位啊?
还有290~480的速度还慢?


--【伍】--:

我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。


--【陆】--:

佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬


--【柒】--:

听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S


--【捌】--:

这个模型质量怎么样呀?比如说回复的质量速度什么的。

阅读全文
标签:人工智能
问题描述:

老登们下班了,现在可以霍霍服务器了
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
image1920×1066 661 KB
先问一下洗车问题:
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
image1942×890 79.1 KB
速度慢的发指 ,10个并发~290~480 tokens/s(毕竟只有一台机器,速度上不去)

先去吃个饭,吃完再来看一下

网友解答:
--【壹】--:

佬、你这复现机器是什么配置,内存,显存,显卡多少?


--【贰】--:

卡贵吗?整套配置大概花了多少,个人学习的做些小项目的话,佬有什么推荐的?


--【叁】--:

佬,个人学习的话用codex呀,量大管饱。至于这一整套我想都不敢想


--【肆】--:

这个配置什么价位啊?
还有290~480的速度还慢?


--【伍】--:

我现在只是先部署起来看一下效果。我们一般不会拿国模来开发,在内网环境里这些本地部署的模型更多的是应用在不同的agent里。


--【陆】--:

佬,我单位也打算用910b来部署大模型,用来ai coding,佬部署的v4-flash量化版用起来咋样,用来做开发够用吗?实际跑起来要多少张卡呀?我第一次接触华为的卡,很多不太清楚的想问问佬


--【柒】--:

听听这是人话么,10并发 290~480 TOKENS/S ,这速度慢的发指 过分了哈,GPT-5.5才50 TOKENS/S


--【捌】--:

这个模型质量怎么样呀?比如说回复的质量速度什么的。

阅读全文
标签:人工智能