昇腾框架兼容
- 内容介绍
- 文章标签
- 相关推荐
deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型
网友解答:--【壹】--:
可以训练的,我用llama factory在910B3上训练过qwen,就是利用率拉不上去,不知道为啥
--【贰】--:
你这个话题就比较高深了,想我们只会调用API玩大模型对话的就玩不明白。
--【叁】--:
反正V3和R1的适配可搞死我们了,这次这么高调的吹国产化,希望是真的
--【肆】--:
目前不确定是否用昇腾训练,我觉得不太可能,训练需要的难度远超推理,今晚可以看直播看看
--【伍】--:
在哪直播吗?今晚去看看.还是蛮感兴趣的诶
--【陆】--:
那你可以试试,deepseek也不是在昇腾上完整训练的,大部分工作还是在nVidia完成的。官方的续训练可能都是在nVidia完成的
--【柒】--:
paste_1777008921595.png655×110 28.3 KB
续训练,所以不是全部训练都在昇腾上的。
deepseek v4可以说掀起了一波昇腾热潮,有没有对昇腾很熟悉的佬,能不能科普一下现在对dl框架兼容到什么程度了,以及flops呢。我们公司内部有超大昇腾集群,但只用来部署开源模型,我还没有拿来训过模型
网友解答:--【壹】--:
可以训练的,我用llama factory在910B3上训练过qwen,就是利用率拉不上去,不知道为啥
--【贰】--:
你这个话题就比较高深了,想我们只会调用API玩大模型对话的就玩不明白。
--【叁】--:
反正V3和R1的适配可搞死我们了,这次这么高调的吹国产化,希望是真的
--【肆】--:
目前不确定是否用昇腾训练,我觉得不太可能,训练需要的难度远超推理,今晚可以看直播看看
--【伍】--:
在哪直播吗?今晚去看看.还是蛮感兴趣的诶
--【陆】--:
那你可以试试,deepseek也不是在昇腾上完整训练的,大部分工作还是在nVidia完成的。官方的续训练可能都是在nVidia完成的
--【柒】--:
paste_1777008921595.png655×110 28.3 KB
续训练,所以不是全部训练都在昇腾上的。

