来聊聊对 DeepSeek v4 的看法吧
- 内容介绍
- 文章标签
- 相关推荐
我先叠个甲,我以下内容没有唱衰国产大模型的意思,我想尽量说的理性客观一点,个人也有很多地方理解的不足,还希望各位佬指正。
我个人认为 DeepSeek v4 相比于新发布的这些模型不会有非常大的性能飞跃,应该还是回归开源大模型的榜首。
可能也限于国外的限制,同时国内对于推理与训练在卡的方面还在追赶状态
DeepSeek 一直拼的都不是自己模型参数有多大,而是在细节上的打磨,是作为用户的我们可能都能想到的方面,是那些当谁一提出来这方面可以优化,自己也能回过味来说出一句“确实”的方面。
最近 Claude Code CLI 源码的泄漏,应该也看到了 Anthropic 让用户感觉赢在体验上的秘密就是对工程化脚手架的细致打磨。
DeepSeek 每次推出新模型的时候,相比于模型性能有多好或者价格有多低,我感觉最有价值的是发表的那些论文,惠及所有人的知识财富。
前几天也看到站里有一些未经核实的相关情报,我感觉不至于说是因为进步不多,或者说其他人迭代太快超过了自己准备发布的版本,而导致延期发布。
个人感觉 DeepSeek v4 这次的发布应该会把多模态和长上下文端上来,大概率应该是能跑在完全国产可控的训练集群上,不说能一举打破英伟达的护城河吧,至少表明了以后跑在国内万卡集群上不是难事,提振一下国内的信心。论文成果应该也不会缺席。
因为之前听到的更多还是都说国内的平台确实有,国产卡的价格也合适,集群规模也能做大,但是相比 Cuda 太难用了,说 Bug 多什么的,说啥不亚于用汇编一样的话,这次 DeepSeek 如果证明了能用,即使说没有多好用,也至少说扫除了前方的阴霾,告诉所有人全国产不是问题,没有 NVIDIA 的卡不代表着国内发展不了 AI,肯定又是一个新的 DeepSeek 时刻。
国内现在可能确实制程受限制,但是国内确实就更擅长做力大砖飞的事情,我没有太细致的了解,至少国内的电力系统应该绝对的领先,咱们不缺地方,也不缺电,过度的节省空间就有点本末倒置了,毕竟都是为了训练模型嘛,最终目的也不是为了炫技。
DeepSeek 这次的快速模式和专家模式,因为还不知道背后是不是真的是 v4,所以还没有很深度的体验,至少感觉这次性能上可能不会大赢特赢,但是体验上肯定会是很不错的。
毕竟各家的商业模式也都不太一样,DeepSeek 盈利的方面应该还是在自己的老本行上,我个人也不是太懂这方面,价格方面我就不说了,留给各位佬来交流吧。
一到晚上看到点东西就有很多想说的,再加上舍友在“床上开摩托车”,就更来劲了,就说到这里吧,如果我有遗漏的点,希望各位佬给补充。大晚上的脑袋可能也不是太清晰,如果有哪说的有点不合时宜或者不对的地方,希望各位佬指出,我及时改正。
网友解答:--【壹】--:
已经确定了是v4吗。我还以为就是一个普通的专家模式
--【贰】--:
媒体就像蝗虫一下, Deepseek一有什么动静, 就开始各种吹.
对于国内媒体来说, 事实不重要, 热度才是重要的, 引用长者的一句话: “媒体需要提高一下专业水平, 不要总想搞个大新闻”
DeepSeek从V3, R1, 都是没破圈一步一个脚印慢慢出来了, 反而破圈后就开始止步不前了.
要知道, 毁掉一个人, 最好的方式就是捧杀, 企业也一样, 求求媒体放过它吧.
--【叁】--:
从2月就开始陆陆续续有风声,媒体越炒越热,现在4月了还没出,感觉烘托不出让人热血澎湃的感觉了,倒是让大众多了很多无源的失望和怀疑。
--【肆】--:
还是期待能用国产卡训练,算力基础设施卡得太难受了
--【伍】--:
称不上唱衰,这只是实事求是
故意接机捧杀的人不少,给那些被带节奏的人泼点冷水,让他们冷静下来是好事
省得成了别人手里的枪
--【陆】--:
看到佬的回复,我又去完善了一下帖子,确实会让国内重新认识国产平台,国产卡。不再是一问就好像是“原始人 vs 三体人”的印象。期待一下新的 DeepSeek 时刻。
--【柒】--:
而且我觉得以 DeepSeek 的风格,出数学证明方向的模型比出编码模型的概率高很多。
床上开摩托也还好,我这边的响度几乎是在我脸上开摩托。
--【捌】--:
其实国产卡训练,能训出来,维持在第一或者第二梯队,其实就已经胜利了
--【玖】--:
国内计算卡目前都是各做各的,生态和配套比较少,等deepseek打样之后应该会有更多厂商尝试或者跟进国产卡训练的,之前很多都停留在量化部署
--【拾】--:
我的期待是实战上至少有到达或者接近第一梯队的水准(就是别搞国产经常弄的刷分一套实战另一套的感受),然后可能的话有一个较低的成本,大概就足够了
--【拾壹】--:
嗯,DeepSeek出现以前,根本想象不到AI的差距能在当时直接被缩小到极致,到目前国产ai虽然没有超越,但也是紧紧跟随。而且今年国外模型的能力进步也很大,成本也越来越贵,尤其ds这一整年都没有大版本更新,像是在憋大招,所以对于deepseek的期望很大
--【拾贰】--:
纸面数据或着相关跑分可能还有差距,但是体验上应该能和头部的几个掰掰手腕。
--【拾叁】--:
我也觉得最厉害的是论文……可惜好像最大影响力的还是attention is all you need……
kimi的论文也不错,这种感觉就很棒,比闭源的要好很多
--【拾肆】--:
感觉现在很多人都感觉某些方面的差距是理应被一瞬间解决的,感觉立马追不上,一辈子也就那样了。但是这件事本身就该一步一步来,每一步都走扎实,每一步都有收获。
--【拾伍】--:
大概率是,因为多模态能力增长,和前端分类里有视觉分类。
再加上前段时间测试的小参数量模型,可判断是新训练了基模。
--【拾陆】--:
大家都最需要的能力:
- 代码能力大幅度提升
- 原生多模态
- 1M 上下文
- 不太贵的价格(这点一直是 ds 的优势)
这些能实现,v4 可以说夯爆了,目前看来代码能力提升不大,1M 上下文板上钉钉,原生多模态还不确定有没有。
不过也算是很大的进步了,deepseek 带动了国内大语言模型的开源与发展,你可以说它的模型不够好,但谁也无法否认 deepseek 的开创性与推动力,业内有目共睹。
--【拾柒】--:
DeepSeek V4 只要成本不要太高,模型不要太拉。我都愿意为它叫好。我的预期是模型能力不低于 GLM 5 还有原生多模态,就已经很不错了。DeepSeek 上一代太有历史意义,所以很多人的预期都很高,但是显卡客观因素在这里摆着,所以对模型能力的预期最好还是低一点,不要想着拳打 Gemini 脚踢 Claude,能使算力底层更自主可控已经是很大的突破了。
--【拾捌】--:
室友在床上开摩托车绷不住了
佬友试试耳塞吧
--【拾玖】--:
其实我都很期待有个国产模型能超越Claude,也不用看claude上家的脸色,动不动就封还各种限制
我先叠个甲,我以下内容没有唱衰国产大模型的意思,我想尽量说的理性客观一点,个人也有很多地方理解的不足,还希望各位佬指正。
我个人认为 DeepSeek v4 相比于新发布的这些模型不会有非常大的性能飞跃,应该还是回归开源大模型的榜首。
可能也限于国外的限制,同时国内对于推理与训练在卡的方面还在追赶状态
DeepSeek 一直拼的都不是自己模型参数有多大,而是在细节上的打磨,是作为用户的我们可能都能想到的方面,是那些当谁一提出来这方面可以优化,自己也能回过味来说出一句“确实”的方面。
最近 Claude Code CLI 源码的泄漏,应该也看到了 Anthropic 让用户感觉赢在体验上的秘密就是对工程化脚手架的细致打磨。
DeepSeek 每次推出新模型的时候,相比于模型性能有多好或者价格有多低,我感觉最有价值的是发表的那些论文,惠及所有人的知识财富。
前几天也看到站里有一些未经核实的相关情报,我感觉不至于说是因为进步不多,或者说其他人迭代太快超过了自己准备发布的版本,而导致延期发布。
个人感觉 DeepSeek v4 这次的发布应该会把多模态和长上下文端上来,大概率应该是能跑在完全国产可控的训练集群上,不说能一举打破英伟达的护城河吧,至少表明了以后跑在国内万卡集群上不是难事,提振一下国内的信心。论文成果应该也不会缺席。
因为之前听到的更多还是都说国内的平台确实有,国产卡的价格也合适,集群规模也能做大,但是相比 Cuda 太难用了,说 Bug 多什么的,说啥不亚于用汇编一样的话,这次 DeepSeek 如果证明了能用,即使说没有多好用,也至少说扫除了前方的阴霾,告诉所有人全国产不是问题,没有 NVIDIA 的卡不代表着国内发展不了 AI,肯定又是一个新的 DeepSeek 时刻。
国内现在可能确实制程受限制,但是国内确实就更擅长做力大砖飞的事情,我没有太细致的了解,至少国内的电力系统应该绝对的领先,咱们不缺地方,也不缺电,过度的节省空间就有点本末倒置了,毕竟都是为了训练模型嘛,最终目的也不是为了炫技。
DeepSeek 这次的快速模式和专家模式,因为还不知道背后是不是真的是 v4,所以还没有很深度的体验,至少感觉这次性能上可能不会大赢特赢,但是体验上肯定会是很不错的。
毕竟各家的商业模式也都不太一样,DeepSeek 盈利的方面应该还是在自己的老本行上,我个人也不是太懂这方面,价格方面我就不说了,留给各位佬来交流吧。
一到晚上看到点东西就有很多想说的,再加上舍友在“床上开摩托车”,就更来劲了,就说到这里吧,如果我有遗漏的点,希望各位佬给补充。大晚上的脑袋可能也不是太清晰,如果有哪说的有点不合时宜或者不对的地方,希望各位佬指出,我及时改正。
网友解答:--【壹】--:
已经确定了是v4吗。我还以为就是一个普通的专家模式
--【贰】--:
媒体就像蝗虫一下, Deepseek一有什么动静, 就开始各种吹.
对于国内媒体来说, 事实不重要, 热度才是重要的, 引用长者的一句话: “媒体需要提高一下专业水平, 不要总想搞个大新闻”
DeepSeek从V3, R1, 都是没破圈一步一个脚印慢慢出来了, 反而破圈后就开始止步不前了.
要知道, 毁掉一个人, 最好的方式就是捧杀, 企业也一样, 求求媒体放过它吧.
--【叁】--:
从2月就开始陆陆续续有风声,媒体越炒越热,现在4月了还没出,感觉烘托不出让人热血澎湃的感觉了,倒是让大众多了很多无源的失望和怀疑。
--【肆】--:
还是期待能用国产卡训练,算力基础设施卡得太难受了
--【伍】--:
称不上唱衰,这只是实事求是
故意接机捧杀的人不少,给那些被带节奏的人泼点冷水,让他们冷静下来是好事
省得成了别人手里的枪
--【陆】--:
看到佬的回复,我又去完善了一下帖子,确实会让国内重新认识国产平台,国产卡。不再是一问就好像是“原始人 vs 三体人”的印象。期待一下新的 DeepSeek 时刻。
--【柒】--:
而且我觉得以 DeepSeek 的风格,出数学证明方向的模型比出编码模型的概率高很多。
床上开摩托也还好,我这边的响度几乎是在我脸上开摩托。
--【捌】--:
其实国产卡训练,能训出来,维持在第一或者第二梯队,其实就已经胜利了
--【玖】--:
国内计算卡目前都是各做各的,生态和配套比较少,等deepseek打样之后应该会有更多厂商尝试或者跟进国产卡训练的,之前很多都停留在量化部署
--【拾】--:
我的期待是实战上至少有到达或者接近第一梯队的水准(就是别搞国产经常弄的刷分一套实战另一套的感受),然后可能的话有一个较低的成本,大概就足够了
--【拾壹】--:
嗯,DeepSeek出现以前,根本想象不到AI的差距能在当时直接被缩小到极致,到目前国产ai虽然没有超越,但也是紧紧跟随。而且今年国外模型的能力进步也很大,成本也越来越贵,尤其ds这一整年都没有大版本更新,像是在憋大招,所以对于deepseek的期望很大
--【拾贰】--:
纸面数据或着相关跑分可能还有差距,但是体验上应该能和头部的几个掰掰手腕。
--【拾叁】--:
我也觉得最厉害的是论文……可惜好像最大影响力的还是attention is all you need……
kimi的论文也不错,这种感觉就很棒,比闭源的要好很多
--【拾肆】--:
感觉现在很多人都感觉某些方面的差距是理应被一瞬间解决的,感觉立马追不上,一辈子也就那样了。但是这件事本身就该一步一步来,每一步都走扎实,每一步都有收获。
--【拾伍】--:
大概率是,因为多模态能力增长,和前端分类里有视觉分类。
再加上前段时间测试的小参数量模型,可判断是新训练了基模。
--【拾陆】--:
大家都最需要的能力:
- 代码能力大幅度提升
- 原生多模态
- 1M 上下文
- 不太贵的价格(这点一直是 ds 的优势)
这些能实现,v4 可以说夯爆了,目前看来代码能力提升不大,1M 上下文板上钉钉,原生多模态还不确定有没有。
不过也算是很大的进步了,deepseek 带动了国内大语言模型的开源与发展,你可以说它的模型不够好,但谁也无法否认 deepseek 的开创性与推动力,业内有目共睹。
--【拾柒】--:
DeepSeek V4 只要成本不要太高,模型不要太拉。我都愿意为它叫好。我的预期是模型能力不低于 GLM 5 还有原生多模态,就已经很不错了。DeepSeek 上一代太有历史意义,所以很多人的预期都很高,但是显卡客观因素在这里摆着,所以对模型能力的预期最好还是低一点,不要想着拳打 Gemini 脚踢 Claude,能使算力底层更自主可控已经是很大的突破了。
--【拾捌】--:
室友在床上开摩托车绷不住了
佬友试试耳塞吧
--【拾玖】--:
其实我都很期待有个国产模型能超越Claude,也不用看claude上家的脸色,动不动就封还各种限制

