基于16张910B4可以部署哪些比较好的大模型用来ai coding

2026-04-29 08:252阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

公司要内网开发，需要部署一个 AI Coding 大模型，有 16 张昇腾 910B4 的卡。我之前没用过昇腾，想请教一下：基于这 16 张卡，有哪些开发效果比较好的模型（比如 deepseek v4、glm5.1、qwen系列、minimax-m2.5、kimi-k2.5等）推荐？一般需要多少张 910B4 能跑得比较舒服？部署量化版本的模型效果是不是不太好，那部署原始权重的模型（没量化）16张卡够用吗？晟腾卡上部署大模型在软件/框架上有什么要求吗？谢谢各位佬解答！

网友解答：

--【壹】--：

Q5_K_M格式的不能在晟腾卡上部署吧？

--【贰】--：

glm5.1 和 qwen3.6，这两个都在用，非常好用，上午到了单位，第一件事就跑 glm5.1 协助 OD+IDA 逆向分析，三分钟搞死单位偷偷安装在办公机里的文件审核系统（基本上就是个类似于木马的流氓软件，上传文件时会强制扫描，浏览器被锁的死死的）。

--【叁】--：

我觉得GLM5.1很好，但是支持是不是没有deepseek好啊？

--【肆】--：

很厉害！佬，你glm5.1用的也是910b部署的吗，是量化过的版本吗

--【伍】--：

这个真的不太清楚，没用过升腾，手里只有两块 gpu，5090 和 pro 6000。我是用 gpu+cpu 玩的 heterogeneous 推理。

--【陆】--：

我装了qwen3.6我要去试试…16张910B4总显存多大啊？deepseek或者kimi2.5以上如果不量化的话都是1T级别的显卡消耗吧？

--【柒】--：

可以看下vllm-ascend支持哪些模型，现在比较新的应该都有适配，跑w8a8量化

--【捌】--：

是deepseek在晟腾卡上更加适配吗？

--【玖】--：

Qwen3.5-397B-A17B 搞EP并行

--【拾】--：

是的，看了下确实不够，总显存也只有1T。那只能量化了

--【拾壹】--：

是的，可以研究下（btw社区推送怎么这么慢我才看到回复提示，晕眩了）

--【拾贰】--：

754B 部署的，部署了 Q5_K_M。还有个 Q3_K 的破限版。

--【拾叁】--：

欢迎使用 vLLM Ascend 插件 — vllm-ascend是这个吗

标签：人工智能职场软件开发