DeepSeekv4神了

2026-04-29 09:372阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

deepseek在长上下文和工具调用上不管是pro和flash差距都非常小，都能准确记住长上下文内容，对于pro有这个表现是正常的，但是flash表现居然也不错！要知道flash的参数量才284B!

而经济上deepseek不管是pro还是flash都非常便宜（对比国外），但是能力却差不多，神！夯暴

网友解答：

--【壹】--：

国产之光deepseek!嗷呜~天神下凡deepseek~

--【贰】--：

对我一直觉得这一次进步真的会为所有的 A I 模型带来长足的进步，这个长上下文只是真的长上下文，并不是那种超过100 K 就记不得的那种。

--【叁】--：

一方面是没卡，再一方面他们的路线本来就是长期路线

ds搞开源为的是技术，不是为了那个产品，也不是为了用户量

产品是不值钱的，可以开源扔出去白送给别人的。用户也是不值钱的，随时可以跑的。但是ds留下来的技术迭代研发的能力才是ds自己的护城河

--【肆】--：

捞针很稳，长上下文很稳。这点比友商强的多

--【伍】--：

其实也不能说一直在研究降低成本，按他们自己的话来说，是研究的深入与技术的突破，低成本自然而然就来了

--【陆】--：

我猜主要还是卡在算力上，才要搞的那么复杂，他们没有阿里字节多卡

训练流水线拉长，出问题环节变多，快速迭代更难

--【柒】--：

不是简单的降成本

是在研究真正的通向agi的路径

因为谁都知道，成本不降就硬怼算力只能是最后没有其他办法之后的选择

--【捌】--：

FLASH我待会试试，我们昨天基本上都是PRO，没怎么用FLASH

--【玖】--：

感觉正相反

那些指望ds迭代开源，自己才能更新架构的企业，可能未来会不太行

--【拾】--：

梁之前的采访也说过，选择开源，就是因为他相信ds的核心价值就是团队的研发和创新能力，而不是某一个模型

所以，现在可能逐渐能看到了，这个团队好像真是不一样的

--【拾壹】--：

我感觉deepseek是个偏研究算法的公司，相比于国内其他的模型，他们一直在研究如何降低成本，这次的v4在低token成本下能够达到如此的表现，真的很牛

--【拾贰】--：

如果真在研究agi，agentic能力现在必须要追赶得上，今年下半年开始卷recursive self-improvement

v4的路线有点存疑，可能因为太稀疏了，rl容易崩，模型都是opd训的……

感觉deepseek走上了一条魔改不归路，成本能降是真的，但是这样的模型训练路线越来越复杂，可能越来越难训，一方面到时候真的追赶不上sota，另一方面他们的方法国内其他大模型商参考的时候也会踩很多坑

--【拾叁】--：

deepseek团队还是挺强的，硬件开销比较小，能力却不小

--【拾肆】--：

预感一下，gpt下一个版本可能全面推出长上下文版本，然后claude可能也会搞一个sonnet的1m的全面开放版本，大海捞针不再不可能

--【拾伍】--：

所以我还担心glm/kimi/minimax之流照抄v4架构直接难产 v4 report里写的激进做法不是一般团队能驾驭的

--【拾陆】--：

我同意技术很重要，但技术能快速迭代也很重要，目前路线我个人是看不出能快速迭代，等每一家都开始rsi了，ds会不会追赶不上？

他们建起来的护城河，会不会在agi到来时不堪一击？

--【拾柒】--：

不知道把v4架构推到极限的话，会什么水平

但是，这个架构已经决定了，定价不会太高

感觉现在是当初r1-lite的阶段，新架的构预览版，数据质量肯定是不太行的。等到线上跑一跑，有了更多数据，到时候第一次正式版的实力，才是真正的v4

--【拾捌】--：

主要官方下面那行下半年还能用昇腾降价格，下半年希望摆脱美国三巨头

--【拾玖】--：

这个长下文能力在我的印象里面最早gemini 2.5pro 0325版本似乎也有。

之后是claude opus 4.6在捞针测试里面也有非常好的表现，但可笑的是在claude opus 4.7里面这个能力却退化了，而A社美名其曰是捞针测试过时了。

标签：OpenAI 人工智能