DeepSeekv4神了
- 内容介绍
- 文章标签
- 相关推荐
deepseek在长上下文和工具调用上不管是pro和flash差距都非常小,都能准确记住长上下文内容,对于pro有这个表现是正常的,但是flash表现居然也不错!要知道flash的参数量才284B!
而经济上deepseek不管是pro还是flash都非常便宜(对比国外),但是能力却差不多,神!夯暴
网友解答:--【壹】--:
国产之光deepseek!嗷呜~天神下凡deepseek~
--【贰】--:
对我一直觉得这一次进步真的会为所有的 A I 模型带来长足的进步,这个长上下文只是真的长上下文,并不是那种超过100 K 就记不得的那种。
--【叁】--:
一方面是没卡,再一方面他们的路线本来就是长期路线
ds搞开源为的是技术,不是为了那个产品,也不是为了用户量
产品是不值钱的,可以开源扔出去白送给别人的。用户也是不值钱的,随时可以跑的。但是ds留下来的技术迭代研发的能力才是ds自己的护城河
--【肆】--:
捞针很稳,长上下文很稳。这点比友商强的多
--【伍】--:
其实也不能说一直在研究降低成本,按他们自己的话来说,是研究的深入与技术的突破,低成本自然而然就来了
--【陆】--:
我猜主要还是卡在算力上,才要搞的那么复杂,他们没有阿里字节多卡
训练流水线拉长,出问题环节变多,快速迭代更难
--【柒】--:
不是简单的降成本
是在研究真正的通向agi的路径
因为谁都知道,成本不降就硬怼算力只能是最后没有其他办法之后的选择
--【捌】--:
FLASH我待会试试,我们昨天基本上都是PRO,没怎么用FLASH
--【玖】--:
感觉正相反
那些指望ds迭代开源,自己才能更新架构的企业,可能未来会不太行
--【拾】--:
梁之前的采访也说过,选择开源,就是因为他相信ds的核心价值就是团队的研发和创新能力,而不是某一个模型
所以,现在可能逐渐能看到了,这个团队好像真是不一样的
--【拾壹】--:
我感觉deepseek是个偏研究算法的公司,相比于国内其他的模型,他们一直在研究如何降低成本,这次的v4在低token成本下能够达到如此的表现,真的很牛
--【拾贰】--:
如果真在研究agi,agentic能力现在必须要追赶得上,今年下半年开始卷recursive self-improvement
v4的路线有点存疑,可能因为太稀疏了,rl容易崩,模型都是opd训的……
感觉deepseek走上了一条魔改不归路,成本能降是真的,但是这样的模型训练路线越来越复杂,可能越来越难训,一方面到时候真的追赶不上sota,另一方面他们的方法国内其他大模型商参考的时候也会踩很多坑
--【拾叁】--:
deepseek团队还是挺强的,硬件开销比较小,能力却不小
--【拾肆】--:
预感一下,gpt下一个版本可能全面推出长上下文版本,然后claude可能也会搞一个sonnet的1m的全面开放版本,大海捞针不再不可能
--【拾伍】--:
所以我还担心glm/kimi/minimax之流照抄v4架构直接难产 v4 report里写的激进做法不是一般团队能驾驭的
--【拾陆】--:
我同意技术很重要,但技术能快速迭代也很重要,目前路线我个人是看不出能快速迭代,等每一家都开始rsi了,ds会不会追赶不上?
他们建起来的护城河,会不会在agi到来时不堪一击?
--【拾柒】--:
不知道把v4架构推到极限的话,会什么水平
但是,这个架构已经决定了,定价不会太高
感觉现在是当初r1-lite的阶段,新架的构预览版,数据质量肯定是不太行的。等到线上跑一跑,有了更多数据,到时候第一次正式版的实力,才是真正的v4
--【拾捌】--:
主要官方下面那行下半年还能用昇腾降价格,下半年希望摆脱美国三巨头
--【拾玖】--:
这个长下文能力在我的印象里面最早gemini 2.5pro 0325版本似乎也有。
之后是claude opus 4.6在捞针测试里面也有非常好的表现,但可笑的是在claude opus 4.7里面这个能力却退化了,而A社美名其曰是捞针测试过时了。
deepseek在长上下文和工具调用上不管是pro和flash差距都非常小,都能准确记住长上下文内容,对于pro有这个表现是正常的,但是flash表现居然也不错!要知道flash的参数量才284B!
而经济上deepseek不管是pro还是flash都非常便宜(对比国外),但是能力却差不多,神!夯暴
网友解答:--【壹】--:
国产之光deepseek!嗷呜~天神下凡deepseek~
--【贰】--:
对我一直觉得这一次进步真的会为所有的 A I 模型带来长足的进步,这个长上下文只是真的长上下文,并不是那种超过100 K 就记不得的那种。
--【叁】--:
一方面是没卡,再一方面他们的路线本来就是长期路线
ds搞开源为的是技术,不是为了那个产品,也不是为了用户量
产品是不值钱的,可以开源扔出去白送给别人的。用户也是不值钱的,随时可以跑的。但是ds留下来的技术迭代研发的能力才是ds自己的护城河
--【肆】--:
捞针很稳,长上下文很稳。这点比友商强的多
--【伍】--:
其实也不能说一直在研究降低成本,按他们自己的话来说,是研究的深入与技术的突破,低成本自然而然就来了
--【陆】--:
我猜主要还是卡在算力上,才要搞的那么复杂,他们没有阿里字节多卡
训练流水线拉长,出问题环节变多,快速迭代更难
--【柒】--:
不是简单的降成本
是在研究真正的通向agi的路径
因为谁都知道,成本不降就硬怼算力只能是最后没有其他办法之后的选择
--【捌】--:
FLASH我待会试试,我们昨天基本上都是PRO,没怎么用FLASH
--【玖】--:
感觉正相反
那些指望ds迭代开源,自己才能更新架构的企业,可能未来会不太行
--【拾】--:
梁之前的采访也说过,选择开源,就是因为他相信ds的核心价值就是团队的研发和创新能力,而不是某一个模型
所以,现在可能逐渐能看到了,这个团队好像真是不一样的
--【拾壹】--:
我感觉deepseek是个偏研究算法的公司,相比于国内其他的模型,他们一直在研究如何降低成本,这次的v4在低token成本下能够达到如此的表现,真的很牛
--【拾贰】--:
如果真在研究agi,agentic能力现在必须要追赶得上,今年下半年开始卷recursive self-improvement
v4的路线有点存疑,可能因为太稀疏了,rl容易崩,模型都是opd训的……
感觉deepseek走上了一条魔改不归路,成本能降是真的,但是这样的模型训练路线越来越复杂,可能越来越难训,一方面到时候真的追赶不上sota,另一方面他们的方法国内其他大模型商参考的时候也会踩很多坑
--【拾叁】--:
deepseek团队还是挺强的,硬件开销比较小,能力却不小
--【拾肆】--:
预感一下,gpt下一个版本可能全面推出长上下文版本,然后claude可能也会搞一个sonnet的1m的全面开放版本,大海捞针不再不可能
--【拾伍】--:
所以我还担心glm/kimi/minimax之流照抄v4架构直接难产 v4 report里写的激进做法不是一般团队能驾驭的
--【拾陆】--:
我同意技术很重要,但技术能快速迭代也很重要,目前路线我个人是看不出能快速迭代,等每一家都开始rsi了,ds会不会追赶不上?
他们建起来的护城河,会不会在agi到来时不堪一击?
--【拾柒】--:
不知道把v4架构推到极限的话,会什么水平
但是,这个架构已经决定了,定价不会太高
感觉现在是当初r1-lite的阶段,新架的构预览版,数据质量肯定是不太行的。等到线上跑一跑,有了更多数据,到时候第一次正式版的实力,才是真正的v4
--【拾捌】--:
主要官方下面那行下半年还能用昇腾降价格,下半年希望摆脱美国三巨头
--【拾玖】--:
这个长下文能力在我的印象里面最早gemini 2.5pro 0325版本似乎也有。
之后是claude opus 4.6在捞针测试里面也有非常好的表现,但可笑的是在claude opus 4.7里面这个能力却退化了,而A社美名其曰是捞针测试过时了。

