来聊聊对 DeepSeek v4 的看法吧

2026-04-11 08:261阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

我先叠个甲，我以下内容没有唱衰国产大模型的意思，我想尽量说的理性客观一点，个人也有很多地方理解的不足，还希望各位佬指正。

我个人认为 DeepSeek v4 相比于新发布的这些模型不会有非常大的性能飞跃，应该还是回归开源大模型的榜首。

可能也限于国外的限制，同时国内对于推理与训练在卡的方面还在追赶状态
DeepSeek 一直拼的都不是自己模型参数有多大，而是在细节上的打磨，是作为用户的我们可能都能想到的方面，是那些当谁一提出来这方面可以优化，自己也能回过味来说出一句“确实”的方面。
最近 Claude Code CLI 源码的泄漏，应该也看到了 Anthropic 让用户感觉赢在体验上的秘密就是对工程化脚手架的细致打磨。

DeepSeek 每次推出新模型的时候，相比于模型性能有多好或者价格有多低，我感觉最有价值的是发表的那些论文，惠及所有人的知识财富。

前几天也看到站里有一些未经核实的相关情报，我感觉不至于说是因为进步不多，或者说其他人迭代太快超过了自己准备发布的版本，而导致延期发布。
个人感觉 DeepSeek v4 这次的发布应该会把多模态和长上下文端上来，大概率应该是能跑在完全国产可控的训练集群上，不说能一举打破英伟达的护城河吧，至少表明了以后跑在国内万卡集群上不是难事，提振一下国内的信心。论文成果应该也不会缺席。

因为之前听到的更多还是都说国内的平台确实有，国产卡的价格也合适，集群规模也能做大，但是相比 Cuda 太难用了，说 Bug 多什么的，说啥不亚于用汇编一样的话，这次 DeepSeek 如果证明了能用，即使说没有多好用，也至少说扫除了前方的阴霾，告诉所有人全国产不是问题，没有 NVIDIA 的卡不代表着国内发展不了 AI，肯定又是一个新的 DeepSeek 时刻。

国内现在可能确实制程受限制，但是国内确实就更擅长做力大砖飞的事情，我没有太细致的了解，至少国内的电力系统应该绝对的领先，咱们不缺地方，也不缺电，过度的节省空间就有点本末倒置了，毕竟都是为了训练模型嘛，最终目的也不是为了炫技。

DeepSeek 这次的快速模式和专家模式，因为还不知道背后是不是真的是 v4，所以还没有很深度的体验，至少感觉这次性能上可能不会大赢特赢，但是体验上肯定会是很不错的。

毕竟各家的商业模式也都不太一样，DeepSeek 盈利的方面应该还是在自己的老本行上，我个人也不是太懂这方面，价格方面我就不说了，留给各位佬来交流吧。

一到晚上看到点东西就有很多想说的，再加上舍友在“床上开摩托车”，就更来劲了，就说到这里吧，如果我有遗漏的点，希望各位佬给补充。大晚上的脑袋可能也不是太清晰，如果有哪说的有点不合时宜或者不对的地方，希望各位佬指出，我及时改正。

网友解答：

--【壹】--：

已经确定了是v4吗。我还以为就是一个普通的专家模式

--【贰】--：

媒体就像蝗虫一下, Deepseek一有什么动静, 就开始各种吹.
对于国内媒体来说, 事实不重要, 热度才是重要的, 引用长者的一句话: “媒体需要提高一下专业水平, 不要总想搞个大新闻”
DeepSeek从V3, R1, 都是没破圈一步一个脚印慢慢出来了, 反而破圈后就开始止步不前了.
要知道, 毁掉一个人, 最好的方式就是捧杀, 企业也一样, 求求媒体放过它吧.

--【叁】--：

从2月就开始陆陆续续有风声，媒体越炒越热，现在4月了还没出，感觉烘托不出让人热血澎湃的感觉了，倒是让大众多了很多无源的失望和怀疑。

--【肆】--：

还是期待能用国产卡训练，算力基础设施卡得太难受了

--【伍】--：

称不上唱衰，这只是实事求是
故意接机捧杀的人不少，给那些被带节奏的人泼点冷水，让他们冷静下来是好事
省得成了别人手里的枪

--【陆】--：

看到佬的回复，我又去完善了一下帖子，确实会让国内重新认识国产平台，国产卡。不再是一问就好像是“原始人 vs 三体人”的印象。期待一下新的 DeepSeek 时刻。

--【柒】--：

而且我觉得以 DeepSeek 的风格，出数学证明方向的模型比出编码模型的概率高很多。

床上开摩托也还好，我这边的响度几乎是在我脸上开摩托。

--【捌】--：

其实国产卡训练，能训出来，维持在第一或者第二梯队，其实就已经胜利了

--【玖】--：

国内计算卡目前都是各做各的，生态和配套比较少，等deepseek打样之后应该会有更多厂商尝试或者跟进国产卡训练的，之前很多都停留在量化部署

--【拾】--：

我的期待是实战上至少有到达或者接近第一梯队的水准（就是别搞国产经常弄的刷分一套实战另一套的感受），然后可能的话有一个较低的成本，大概就足够了

--【拾壹】--：

嗯，DeepSeek出现以前，根本想象不到AI的差距能在当时直接被缩小到极致，到目前国产ai虽然没有超越，但也是紧紧跟随。而且今年国外模型的能力进步也很大，成本也越来越贵，尤其ds这一整年都没有大版本更新，像是在憋大招，所以对于deepseek的期望很大

--【拾贰】--：

纸面数据或着相关跑分可能还有差距，但是体验上应该能和头部的几个掰掰手腕。

--【拾叁】--：

我也觉得最厉害的是论文……可惜好像最大影响力的还是attention is all you need……
kimi的论文也不错，这种感觉就很棒，比闭源的要好很多

--【拾肆】--：

感觉现在很多人都感觉某些方面的差距是理应被一瞬间解决的，感觉立马追不上，一辈子也就那样了。但是这件事本身就该一步一步来，每一步都走扎实，每一步都有收获。

--【拾伍】--：

大概率是，因为多模态能力增长，和前端分类里有视觉分类。

再加上前段时间测试的小参数量模型，可判断是新训练了基模。

--【拾陆】--：

大家都最需要的能力：

代码能力大幅度提升
原生多模态
1M 上下文
不太贵的价格（这点一直是 ds 的优势）

这些能实现，v4 可以说夯爆了，目前看来代码能力提升不大，1M 上下文板上钉钉，原生多模态还不确定有没有。

不过也算是很大的进步了，deepseek 带动了国内大语言模型的开源与发展，你可以说它的模型不够好，但谁也无法否认 deepseek 的开创性与推动力，业内有目共睹。

--【拾柒】--：

DeepSeek V4 只要成本不要太高，模型不要太拉。我都愿意为它叫好。我的预期是模型能力不低于 GLM 5 还有原生多模态，就已经很不错了。DeepSeek 上一代太有历史意义，所以很多人的预期都很高，但是显卡客观因素在这里摆着，所以对模型能力的预期最好还是低一点，不要想着拳打 Gemini 脚踢 Claude，能使算力底层更自主可控已经是很大的突破了。

--【拾捌】--：

室友在床上开摩托车绷不住了
佬友试试耳塞吧

--【拾玖】--：

其实我都很期待有个国产模型能超越Claude，也不用看claude上家的脸色，动不动就封还各种限制

标签：DeepSeek 人工智能纯水