DeepSeekv4神了

2026-04-29 09:372阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

deepseek在长上下文和工具调用上不管是pro和flash差距都非常小,都能准确记住长上下文内容,对于pro有这个表现是正常的,但是flash表现居然也不错!要知道flash的参数量才284B!

而经济上deepseek不管是pro还是flash都非常便宜(对比国外),但是能力却差不多,神!夯暴

网友解答:
--【壹】--:

国产之光deepseek!嗷呜~天神下凡deepseek~


--【贰】--:

对我一直觉得这一次进步真的会为所有的 A I 模型带来长足的进步,这个长上下文只是真的长上下文,并不是那种超过100 K 就记不得的那种。


--【叁】--:

一方面是没卡,再一方面他们的路线本来就是长期路线

ds搞开源为的是技术,不是为了那个产品,也不是为了用户量

产品是不值钱的,可以开源扔出去白送给别人的。用户也是不值钱的,随时可以跑的。但是ds留下来的技术迭代研发的能力才是ds自己的护城河


--【肆】--:

捞针很稳,长上下文很稳。这点比友商强的多


--【伍】--:

其实也不能说一直在研究降低成本,按他们自己的话来说,是研究的深入与技术的突破,低成本自然而然就来了


--【陆】--:

我猜主要还是卡在算力上,才要搞的那么复杂,他们没有阿里字节多卡

训练流水线拉长,出问题环节变多,快速迭代更难


--【柒】--:

不是简单的降成本

是在研究真正的通向agi的路径

因为谁都知道,成本不降就硬怼算力只能是最后没有其他办法之后的选择


--【捌】--:

FLASH我待会试试,我们昨天基本上都是PRO,没怎么用FLASH


--【玖】--:

感觉正相反

那些指望ds迭代开源,自己才能更新架构的企业,可能未来会不太行


--【拾】--:

梁之前的采访也说过,选择开源,就是因为他相信ds的核心价值就是团队的研发和创新能力,而不是某一个模型

所以,现在可能逐渐能看到了,这个团队好像真是不一样的


--【拾壹】--:

我感觉deepseek是个偏研究算法的公司,相比于国内其他的模型,他们一直在研究如何降低成本,这次的v4在低token成本下能够达到如此的表现,真的很牛


--【拾贰】--:

如果真在研究agi,agentic能力现在必须要追赶得上,今年下半年开始卷recursive self-improvement

v4的路线有点存疑,可能因为太稀疏了,rl容易崩,模型都是opd训的……

感觉deepseek走上了一条魔改不归路,成本能降是真的,但是这样的模型训练路线越来越复杂,可能越来越难训,一方面到时候真的追赶不上sota,另一方面他们的方法国内其他大模型商参考的时候也会踩很多坑


--【拾叁】--:

deepseek团队还是挺强的,硬件开销比较小,能力却不小


--【拾肆】--:

预感一下,gpt下一个版本可能全面推出长上下文版本,然后claude可能也会搞一个sonnet的1m的全面开放版本,大海捞针不再不可能


--【拾伍】--:

所以我还担心glm/kimi/minimax之流照抄v4架构直接难产 v4 report里写的激进做法不是一般团队能驾驭的


--【拾陆】--:

我同意技术很重要,但技术能快速迭代也很重要,目前路线我个人是看不出能快速迭代,等每一家都开始rsi了,ds会不会追赶不上?

他们建起来的护城河,会不会在agi到来时不堪一击?


--【拾柒】--:

不知道把v4架构推到极限的话,会什么水平

但是,这个架构已经决定了,定价不会太高

感觉现在是当初r1-lite的阶段,新架的构预览版,数据质量肯定是不太行的。等到线上跑一跑,有了更多数据,到时候第一次正式版的实力,才是真正的v4


--【拾捌】--:

主要官方下面那行下半年还能用昇腾降价格,下半年希望摆脱美国三巨头


--【拾玖】--:

这个长下文能力在我的印象里面最早gemini 2.5pro 0325版本似乎也有。

之后是claude opus 4.6在捞针测试里面也有非常好的表现,但可笑的是在claude opus 4.7里面这个能力却退化了,而A社美名其曰是捞针测试过时了。

问题描述:

deepseek在长上下文和工具调用上不管是pro和flash差距都非常小,都能准确记住长上下文内容,对于pro有这个表现是正常的,但是flash表现居然也不错!要知道flash的参数量才284B!

而经济上deepseek不管是pro还是flash都非常便宜(对比国外),但是能力却差不多,神!夯暴

网友解答:
--【壹】--:

国产之光deepseek!嗷呜~天神下凡deepseek~


--【贰】--:

对我一直觉得这一次进步真的会为所有的 A I 模型带来长足的进步,这个长上下文只是真的长上下文,并不是那种超过100 K 就记不得的那种。


--【叁】--:

一方面是没卡,再一方面他们的路线本来就是长期路线

ds搞开源为的是技术,不是为了那个产品,也不是为了用户量

产品是不值钱的,可以开源扔出去白送给别人的。用户也是不值钱的,随时可以跑的。但是ds留下来的技术迭代研发的能力才是ds自己的护城河


--【肆】--:

捞针很稳,长上下文很稳。这点比友商强的多


--【伍】--:

其实也不能说一直在研究降低成本,按他们自己的话来说,是研究的深入与技术的突破,低成本自然而然就来了


--【陆】--:

我猜主要还是卡在算力上,才要搞的那么复杂,他们没有阿里字节多卡

训练流水线拉长,出问题环节变多,快速迭代更难


--【柒】--:

不是简单的降成本

是在研究真正的通向agi的路径

因为谁都知道,成本不降就硬怼算力只能是最后没有其他办法之后的选择


--【捌】--:

FLASH我待会试试,我们昨天基本上都是PRO,没怎么用FLASH


--【玖】--:

感觉正相反

那些指望ds迭代开源,自己才能更新架构的企业,可能未来会不太行


--【拾】--:

梁之前的采访也说过,选择开源,就是因为他相信ds的核心价值就是团队的研发和创新能力,而不是某一个模型

所以,现在可能逐渐能看到了,这个团队好像真是不一样的


--【拾壹】--:

我感觉deepseek是个偏研究算法的公司,相比于国内其他的模型,他们一直在研究如何降低成本,这次的v4在低token成本下能够达到如此的表现,真的很牛


--【拾贰】--:

如果真在研究agi,agentic能力现在必须要追赶得上,今年下半年开始卷recursive self-improvement

v4的路线有点存疑,可能因为太稀疏了,rl容易崩,模型都是opd训的……

感觉deepseek走上了一条魔改不归路,成本能降是真的,但是这样的模型训练路线越来越复杂,可能越来越难训,一方面到时候真的追赶不上sota,另一方面他们的方法国内其他大模型商参考的时候也会踩很多坑


--【拾叁】--:

deepseek团队还是挺强的,硬件开销比较小,能力却不小


--【拾肆】--:

预感一下,gpt下一个版本可能全面推出长上下文版本,然后claude可能也会搞一个sonnet的1m的全面开放版本,大海捞针不再不可能


--【拾伍】--:

所以我还担心glm/kimi/minimax之流照抄v4架构直接难产 v4 report里写的激进做法不是一般团队能驾驭的


--【拾陆】--:

我同意技术很重要,但技术能快速迭代也很重要,目前路线我个人是看不出能快速迭代,等每一家都开始rsi了,ds会不会追赶不上?

他们建起来的护城河,会不会在agi到来时不堪一击?


--【拾柒】--:

不知道把v4架构推到极限的话,会什么水平

但是,这个架构已经决定了,定价不会太高

感觉现在是当初r1-lite的阶段,新架的构预览版,数据质量肯定是不太行的。等到线上跑一跑,有了更多数据,到时候第一次正式版的实力,才是真正的v4


--【拾捌】--:

主要官方下面那行下半年还能用昇腾降价格,下半年希望摆脱美国三巨头


--【拾玖】--:

这个长下文能力在我的印象里面最早gemini 2.5pro 0325版本似乎也有。

之后是claude opus 4.6在捞针测试里面也有非常好的表现,但可笑的是在claude opus 4.7里面这个能力却退化了,而A社美名其曰是捞针测试过时了。