昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试

2026-04-29 08:531阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

老登们下班了，现在可以霍霍服务器了
vllm-ascend部署文档： DeepSeek-V4 — vllm-ascend
模型：DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功：
image1920×1066 661 KB
先问一下洗车问题：
image4394×662 197 KB
逻辑OK
跑一下文档中的数据集(GSM8K，数学推理能力)
image1942×890 79.1 KB
速度慢的发指，10个并发~290~480 tokens/s(毕竟只有一台机器，速度上不去)

先去吃个饭，吃完再来看一下

网友解答：

--【壹】--：

佬、你这复现机器是什么配置，内存，显存，显卡多少？

--【贰】--：

卡贵吗？整套配置大概花了多少，个人学习的做些小项目的话，佬有什么推荐的？

--【叁】--：

佬，个人学习的话用codex呀，量大管饱。至于这一整套我想都不敢想

--【肆】--：

这个配置什么价位啊？
还有290～480的速度还慢？

--【伍】--：

我现在只是先部署起来看一下效果。我们一般不会拿国模来开发，在内网环境里这些本地部署的模型更多的是应用在不同的agent里。

--【陆】--：

佬，我单位也打算用910b来部署大模型，用来ai coding，佬部署的v4-flash量化版用起来咋样，用来做开发够用吗？实际跑起来要多少张卡呀？我第一次接触华为的卡，很多不太清楚的想问问佬

--【柒】--：

听听这是人话么，10并发 290~480 TOKENS/S ，这速度慢的发指过分了哈，GPT-5.5才50 TOKENS/S

--【捌】--：

这个模型质量怎么样呀？比如说回复的质量速度什么的。

阅读全文

标签：人工智能