周末单位传来好消息 910B2 跑 DeepSeek V4 Flash
- 内容介绍
- 文章标签
- 相关推荐
IMG_20260426_2032131080×835 137 KB
IMG_20260426_2015561_1777206711463edit1080×654 67.2 KB
据说一个910B2服务器能稳定服务20路,这个什么水平,明天去问问价格看看
网友解答:--【壹】--:
佬友,这个我不清楚,是集团一个的基层单位维护的。
--【贰】--:
是的,我本地运行小模型,感觉比部分在线大模型都要好用很多
--【叁】--:
耗电量如何?有可能家用吗?家用一个月1k以内的电费都能接受。再贵只能选择mac studio了
--【肆】--:
佬,你这是几卡的910B,我这8卡910B只跑了个GLM5
--【伍】--: skyrock:
我们部门没批,没用上,据大数据中心同事说用的挺爽的,比市面能买到上的plan爽
我们部门没批,没用上,据大数据中心同事说用的挺爽的,比市面能买到上的plan爽
--【陆】--:
原来是Flash,我还以为是Pro实现了本地部署
--【柒】--:
两台910b,16卡,能跑起来1M的上下文嘛?
--【捌】--:
为啥我司部署的glm5.1 只有 120k的上下文
--【玖】--:
“用DeepSeek V4 Flash要3档会员 一个910B2服务器能稳定服务20路,名额有限”
image790×130 33.5 KB
佬友们 我部门这不是专门写代码的 轻度代码 重度文档需求的话 这个价格怎么评价 能用回本吗
--【拾】--:
佬,你部署用的glm5还是glm5.1呀,8卡901b跑起来速度还行吗
--【拾壹】--:
云商提供的一键部署,开箱即用的,不能自己修改配置
--【拾贰】--:
好的!你是按照 GLM-5 — vllm-ascend这个官方文档部署的吗
--【拾叁】--:
好的佬友,我们单位的是云商提供的,感觉不太好用glm5,你们现在的感觉如何
skyrock <noreply@linux.do>于2026年4月27日 周一11:34写道:
--【拾肆】--:
有时候真羡慕这些技术岗,正常工作之余,这些硬件(公车私用 )也可以直接体验到,有点爽的。
--【拾伍】--:
我记得,glm5好像最大支持200K吧。
--【拾陆】--:
glm5 8卡910B部署的上下文只有32K,16卡能到200K,速度还好,不如api快,但是也不慢
--【拾柒】--:
v100 32g,运行的是qwen3.6 27b模型q6量化,98k的上下文(可以开到136k大概),出字速度还可以,放到claude code里轻度使用没问题
--【拾捌】--:
佬, 能方便分享一下你本地机器配置, 和运行的什么大模型吗, 谢谢了~~
IMG_20260426_2032131080×835 137 KB
IMG_20260426_2015561_1777206711463edit1080×654 67.2 KB
据说一个910B2服务器能稳定服务20路,这个什么水平,明天去问问价格看看
网友解答:--【壹】--:
佬友,这个我不清楚,是集团一个的基层单位维护的。
--【贰】--:
是的,我本地运行小模型,感觉比部分在线大模型都要好用很多
--【叁】--:
耗电量如何?有可能家用吗?家用一个月1k以内的电费都能接受。再贵只能选择mac studio了
--【肆】--:
佬,你这是几卡的910B,我这8卡910B只跑了个GLM5
--【伍】--: skyrock:
我们部门没批,没用上,据大数据中心同事说用的挺爽的,比市面能买到上的plan爽
我们部门没批,没用上,据大数据中心同事说用的挺爽的,比市面能买到上的plan爽
--【陆】--:
原来是Flash,我还以为是Pro实现了本地部署
--【柒】--:
两台910b,16卡,能跑起来1M的上下文嘛?
--【捌】--:
为啥我司部署的glm5.1 只有 120k的上下文
--【玖】--:
“用DeepSeek V4 Flash要3档会员 一个910B2服务器能稳定服务20路,名额有限”
image790×130 33.5 KB
佬友们 我部门这不是专门写代码的 轻度代码 重度文档需求的话 这个价格怎么评价 能用回本吗
--【拾】--:
佬,你部署用的glm5还是glm5.1呀,8卡901b跑起来速度还行吗
--【拾壹】--:
云商提供的一键部署,开箱即用的,不能自己修改配置
--【拾贰】--:
好的!你是按照 GLM-5 — vllm-ascend这个官方文档部署的吗
--【拾叁】--:
好的佬友,我们单位的是云商提供的,感觉不太好用glm5,你们现在的感觉如何
skyrock <noreply@linux.do>于2026年4月27日 周一11:34写道:
--【拾肆】--:
有时候真羡慕这些技术岗,正常工作之余,这些硬件(公车私用 )也可以直接体验到,有点爽的。
--【拾伍】--:
我记得,glm5好像最大支持200K吧。
--【拾陆】--:
glm5 8卡910B部署的上下文只有32K,16卡能到200K,速度还好,不如api快,但是也不慢
--【拾柒】--:
v100 32g,运行的是qwen3.6 27b模型q6量化,98k的上下文(可以开到136k大概),出字速度还可以,放到claude code里轻度使用没问题
--【拾捌】--:
佬, 能方便分享一下你本地机器配置, 和运行的什么大模型吗, 谢谢了~~

