基于16张910B4可以部署哪些比较好的大模型用来ai coding
- 内容介绍
- 文章标签
- 相关推荐
公司要内网开发,需要部署一个 AI Coding 大模型,有 16 张昇腾 910B4 的卡。我之前没用过昇腾,想请教一下:基于这 16 张卡,有哪些开发效果比较好的模型(比如 deepseek v4、glm5.1、qwen系列、minimax-m2.5、kimi-k2.5等)推荐?一般需要多少张 910B4 能跑得比较舒服?部署量化版本的模型效果是不是不太好,那部署原始权重的模型(没量化)16张卡够用吗?晟腾卡上部署大模型在软件/框架上有什么要求吗?谢谢各位佬解答!
网友解答:--【壹】--:
Q5_K_M格式的不能在晟腾卡上部署吧?
--【贰】--:
glm5.1 和 qwen3.6,这两个都在用,非常好用,上午到了单位,第一件事就跑 glm5.1 协助 OD+IDA 逆向分析,三分钟搞死单位偷偷安装在办公机里的文件审核系统(基本上就是个类似于木马的流氓软件,上传文件时会强制扫描,浏览器被锁的死死的)。
--【叁】--:
我觉得GLM5.1很好,但是支持是不是没有deepseek好啊?
--【肆】--:
很厉害!佬,你glm5.1用的也是910b部署的吗,是量化过的版本吗
--【伍】--:
这个真的不太清楚,没用过升腾,手里只有两块 gpu,5090 和 pro 6000。我是用 gpu+cpu 玩的 heterogeneous 推理。
--【陆】--:
我装了qwen3.6我要去试试…16张910B4总显存多大啊?deepseek或者kimi2.5以上如果不量化的话 都是1T级别的显卡消耗吧?
--【柒】--:
可以看下vllm-ascend支持哪些模型,现在比较新的应该都有适配,跑w8a8量化
--【捌】--:
是deepseek在晟腾卡上更加适配吗?
--【玖】--:
Qwen3.5-397B-A17B 搞EP并行
--【拾】--:
是的,看了下确实不够,总显存也只有1T。那只能量化了
--【拾壹】--:
是的,可以研究下(btw社区推送怎么这么慢我才看到回复提示,晕眩了)
--【拾贰】--:
754B 部署的,部署了 Q5_K_M。还有个 Q3_K 的破限版。
--【拾叁】--:
欢迎使用 vLLM Ascend 插件 — vllm-ascend是这个吗
公司要内网开发,需要部署一个 AI Coding 大模型,有 16 张昇腾 910B4 的卡。我之前没用过昇腾,想请教一下:基于这 16 张卡,有哪些开发效果比较好的模型(比如 deepseek v4、glm5.1、qwen系列、minimax-m2.5、kimi-k2.5等)推荐?一般需要多少张 910B4 能跑得比较舒服?部署量化版本的模型效果是不是不太好,那部署原始权重的模型(没量化)16张卡够用吗?晟腾卡上部署大模型在软件/框架上有什么要求吗?谢谢各位佬解答!
网友解答:--【壹】--:
Q5_K_M格式的不能在晟腾卡上部署吧?
--【贰】--:
glm5.1 和 qwen3.6,这两个都在用,非常好用,上午到了单位,第一件事就跑 glm5.1 协助 OD+IDA 逆向分析,三分钟搞死单位偷偷安装在办公机里的文件审核系统(基本上就是个类似于木马的流氓软件,上传文件时会强制扫描,浏览器被锁的死死的)。
--【叁】--:
我觉得GLM5.1很好,但是支持是不是没有deepseek好啊?
--【肆】--:
很厉害!佬,你glm5.1用的也是910b部署的吗,是量化过的版本吗
--【伍】--:
这个真的不太清楚,没用过升腾,手里只有两块 gpu,5090 和 pro 6000。我是用 gpu+cpu 玩的 heterogeneous 推理。
--【陆】--:
我装了qwen3.6我要去试试…16张910B4总显存多大啊?deepseek或者kimi2.5以上如果不量化的话 都是1T级别的显卡消耗吧?
--【柒】--:
可以看下vllm-ascend支持哪些模型,现在比较新的应该都有适配,跑w8a8量化
--【捌】--:
是deepseek在晟腾卡上更加适配吗?
--【玖】--:
Qwen3.5-397B-A17B 搞EP并行
--【拾】--:
是的,看了下确实不够,总显存也只有1T。那只能量化了
--【拾壹】--:
是的,可以研究下(btw社区推送怎么这么慢我才看到回复提示,晕眩了)
--【拾贰】--:
754B 部署的,部署了 Q5_K_M。还有个 Q3_K 的破限版。
--【拾叁】--:
欢迎使用 vLLM Ascend 插件 — vllm-ascend是这个吗

