deepseek定位的一些分析

2026-04-29 10:322阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

大家有称赞有批评,批评主要集中在coding不是很突出上,但作为上一代代表中国最先进水平的国内爆款模型,大部分的user还是集中在QA和世界知识上,而不是coding,也就是说他们想做的可能是一款平民(更通用的)模型,而不是类似于glm的coding model ?

网友解答:
--【壹】--:

DeepSeek 公司在最初的定位就是研究、探索型的公司,所以他们想要的是研究新的技术,而不是针对某个方向的模型。


--【贰】--:

但现在agentic是主流方向,但他们好像没有做太多的研究在上面,离国内agentic做的最好的一些如kimi还是有一定的差距


--【叁】--:

后续肯定会训练编程能力的吧,我觉得最可惜的依然不是多模态。


--【肆】--:

按照现在的信息,是不是之后能用昇腾卡推理?这样的话个人能本地部署大参数量模型不再是梦了吧,感觉还是挺让人兴奋的,但是还是没有多模态确实有点尬尴了


--【伍】--:

官网样式没变,那是把内置的模型改了?我看还是那个界面

image1370×549 25.7 KB


--【陆】--:

你可以看他们 V4 的模型,在基础框架技术上,做了很多的技术创新。所以他们实际上就不在乎模型方向,只在乎用什么技术。


--【柒】--:

其实也没什么创新,都是模型压缩和之前发的attn算子吧,整篇paper最有用的还是他们训模型的经验


--【捌】--:

反代的项目,好像没显示v4,还是叫expert,不过多了vision


--【玖】--:

我们公司内部已经部署了昇腾集群快半年了,推理是可以用的,成本相比与N卡没有一点降低,暂时是不可能的


--【拾】--:

可能吧,还是要看他们的定位,如果继续做通用模型可能会类似于目前gemini的路线

问题描述:

大家有称赞有批评,批评主要集中在coding不是很突出上,但作为上一代代表中国最先进水平的国内爆款模型,大部分的user还是集中在QA和世界知识上,而不是coding,也就是说他们想做的可能是一款平民(更通用的)模型,而不是类似于glm的coding model ?

网友解答:
--【壹】--:

DeepSeek 公司在最初的定位就是研究、探索型的公司,所以他们想要的是研究新的技术,而不是针对某个方向的模型。


--【贰】--:

但现在agentic是主流方向,但他们好像没有做太多的研究在上面,离国内agentic做的最好的一些如kimi还是有一定的差距


--【叁】--:

后续肯定会训练编程能力的吧,我觉得最可惜的依然不是多模态。


--【肆】--:

按照现在的信息,是不是之后能用昇腾卡推理?这样的话个人能本地部署大参数量模型不再是梦了吧,感觉还是挺让人兴奋的,但是还是没有多模态确实有点尬尴了


--【伍】--:

官网样式没变,那是把内置的模型改了?我看还是那个界面

image1370×549 25.7 KB


--【陆】--:

你可以看他们 V4 的模型,在基础框架技术上,做了很多的技术创新。所以他们实际上就不在乎模型方向,只在乎用什么技术。


--【柒】--:

其实也没什么创新,都是模型压缩和之前发的attn算子吧,整篇paper最有用的还是他们训模型的经验


--【捌】--:

反代的项目,好像没显示v4,还是叫expert,不过多了vision


--【玖】--:

我们公司内部已经部署了昇腾集群快半年了,推理是可以用的,成本相比与N卡没有一点降低,暂时是不可能的


--【拾】--:

可能吧,还是要看他们的定位,如果继续做通用模型可能会类似于目前gemini的路线