deepseek定位的一些分析
- 内容介绍
- 文章标签
- 相关推荐
大家有称赞有批评,批评主要集中在coding不是很突出上,但作为上一代代表中国最先进水平的国内爆款模型,大部分的user还是集中在QA和世界知识上,而不是coding,也就是说他们想做的可能是一款平民(更通用的)模型,而不是类似于glm的coding model ?
网友解答:--【壹】--:
DeepSeek 公司在最初的定位就是研究、探索型的公司,所以他们想要的是研究新的技术,而不是针对某个方向的模型。
--【贰】--:
但现在agentic是主流方向,但他们好像没有做太多的研究在上面,离国内agentic做的最好的一些如kimi还是有一定的差距
--【叁】--:
后续肯定会训练编程能力的吧,我觉得最可惜的依然不是多模态。
--【肆】--:
按照现在的信息,是不是之后能用昇腾卡推理?这样的话个人能本地部署大参数量模型不再是梦了吧,感觉还是挺让人兴奋的,但是还是没有多模态确实有点尬尴了
--【伍】--:
官网样式没变,那是把内置的模型改了?我看还是那个界面
image1370×549 25.7 KB
--【陆】--:
你可以看他们 V4 的模型,在基础框架技术上,做了很多的技术创新。所以他们实际上就不在乎模型方向,只在乎用什么技术。
--【柒】--:
其实也没什么创新,都是模型压缩和之前发的attn算子吧,整篇paper最有用的还是他们训模型的经验
--【捌】--:
反代的项目,好像没显示v4,还是叫expert,不过多了vision
--【玖】--:
我们公司内部已经部署了昇腾集群快半年了,推理是可以用的,成本相比与N卡没有一点降低,暂时是不可能的
--【拾】--:
可能吧,还是要看他们的定位,如果继续做通用模型可能会类似于目前gemini的路线
大家有称赞有批评,批评主要集中在coding不是很突出上,但作为上一代代表中国最先进水平的国内爆款模型,大部分的user还是集中在QA和世界知识上,而不是coding,也就是说他们想做的可能是一款平民(更通用的)模型,而不是类似于glm的coding model ?
网友解答:--【壹】--:
DeepSeek 公司在最初的定位就是研究、探索型的公司,所以他们想要的是研究新的技术,而不是针对某个方向的模型。
--【贰】--:
但现在agentic是主流方向,但他们好像没有做太多的研究在上面,离国内agentic做的最好的一些如kimi还是有一定的差距
--【叁】--:
后续肯定会训练编程能力的吧,我觉得最可惜的依然不是多模态。
--【肆】--:
按照现在的信息,是不是之后能用昇腾卡推理?这样的话个人能本地部署大参数量模型不再是梦了吧,感觉还是挺让人兴奋的,但是还是没有多模态确实有点尬尴了
--【伍】--:
官网样式没变,那是把内置的模型改了?我看还是那个界面
image1370×549 25.7 KB
--【陆】--:
你可以看他们 V4 的模型,在基础框架技术上,做了很多的技术创新。所以他们实际上就不在乎模型方向,只在乎用什么技术。
--【柒】--:
其实也没什么创新,都是模型压缩和之前发的attn算子吧,整篇paper最有用的还是他们训模型的经验
--【捌】--:
反代的项目,好像没显示v4,还是叫expert,不过多了vision
--【玖】--:
我们公司内部已经部署了昇腾集群快半年了,推理是可以用的,成本相比与N卡没有一点降低,暂时是不可能的
--【拾】--:
可能吧,还是要看他们的定位,如果继续做通用模型可能会类似于目前gemini的路线

