昇腾框架兼容

2026-04-29 10:274阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型

网友解答:
--【壹】--:

可以训练的,我用llama factory在910B3上训练过qwen,就是利用率拉不上去,不知道为啥


--【贰】--:

你这个话题就比较高深了,想我们只会调用API玩大模型对话的就玩不明白。


--【叁】--:

反正V3和R1的适配可搞死我们了,这次这么高调的吹国产化,希望是真的


--【肆】--:

目前不确定是否用昇腾训练,我觉得不太可能,训练需要的难度远超推理,今晚可以看直播看看


--【伍】--:

在哪直播吗?今晚去看看.还是蛮感兴趣的诶


--【陆】--:

那你可以试试,deepseek也不是在昇腾上完整训练的,大部分工作还是在nVidia完成的。官方的续训练可能都是在nVidia完成的


--【柒】--:

paste_1777008921595.png655×110 28.3 KB

续训练,所以不是全部训练都在昇腾上的。

问题描述:

deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型

网友解答:
--【壹】--:

可以训练的,我用llama factory在910B3上训练过qwen,就是利用率拉不上去,不知道为啥


--【贰】--:

你这个话题就比较高深了,想我们只会调用API玩大模型对话的就玩不明白。


--【叁】--:

反正V3和R1的适配可搞死我们了,这次这么高调的吹国产化,希望是真的


--【肆】--:

目前不确定是否用昇腾训练,我觉得不太可能,训练需要的难度远超推理,今晚可以看直播看看


--【伍】--:

在哪直播吗?今晚去看看.还是蛮感兴趣的诶


--【陆】--:

那你可以试试,deepseek也不是在昇腾上完整训练的,大部分工作还是在nVidia完成的。官方的续训练可能都是在nVidia完成的


--【柒】--:

paste_1777008921595.png655×110 28.3 KB

续训练,所以不是全部训练都在昇腾上的。