来聊聊对 DeepSeek v4 的看法吧

2026-04-11 08:260阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

我先叠个甲,我以下内容没有唱衰国产大模型的意思,我想尽量说的理性客观一点,个人也有很多地方理解的不足,还希望各位佬指正。

我个人认为 DeepSeek v4 相比于新发布的这些模型不会有非常大的性能飞跃,应该还是回归开源大模型的榜首。

可能也限于国外的限制,同时国内对于推理与训练在卡的方面还在追赶状态
DeepSeek 一直拼的都不是自己模型参数有多大,而是在细节上的打磨,是作为用户的我们可能都能想到的方面,是那些当谁一提出来这方面可以优化,自己也能回过味来说出一句“确实”的方面。
最近 Claude Code CLI 源码的泄漏,应该也看到了 Anthropic 让用户感觉赢在体验上的秘密就是对工程化脚手架的细致打磨。

DeepSeek 每次推出新模型的时候,相比于模型性能有多好或者价格有多低,我感觉最有价值的是发表的那些论文,惠及所有人的知识财富。

前几天也看到站里有一些未经核实的相关情报,我感觉不至于说是因为进步不多,或者说其他人迭代太快超过了自己准备发布的版本,而导致延期发布。
个人感觉 DeepSeek v4 这次的发布应该会把多模态和长上下文端上来,大概率应该是能跑在完全国产可控的训练集群上,不说能一举打破英伟达的护城河吧,至少表明了以后跑在国内万卡集群上不是难事,提振一下国内的信心。论文成果应该也不会缺席。

因为之前听到的更多还是都说国内的平台确实有,国产卡的价格也合适,集群规模也能做大,但是相比 Cuda 太难用了,说 Bug 多什么的,说啥不亚于用汇编一样的话,这次 DeepSeek 如果证明了能用,即使说没有多好用,也至少说扫除了前方的阴霾,告诉所有人全国产不是问题,没有 NVIDIA 的卡不代表着国内发展不了 AI,肯定又是一个新的 DeepSeek 时刻。

国内现在可能确实制程受限制,但是国内确实就更擅长做力大砖飞的事情,我没有太细致的了解,至少国内的电力系统应该绝对的领先,咱们不缺地方,也不缺电,过度的节省空间就有点本末倒置了,毕竟都是为了训练模型嘛,最终目的也不是为了炫技。

阅读全文
问题描述:

我先叠个甲,我以下内容没有唱衰国产大模型的意思,我想尽量说的理性客观一点,个人也有很多地方理解的不足,还希望各位佬指正。

我个人认为 DeepSeek v4 相比于新发布的这些模型不会有非常大的性能飞跃,应该还是回归开源大模型的榜首。

可能也限于国外的限制,同时国内对于推理与训练在卡的方面还在追赶状态
DeepSeek 一直拼的都不是自己模型参数有多大,而是在细节上的打磨,是作为用户的我们可能都能想到的方面,是那些当谁一提出来这方面可以优化,自己也能回过味来说出一句“确实”的方面。
最近 Claude Code CLI 源码的泄漏,应该也看到了 Anthropic 让用户感觉赢在体验上的秘密就是对工程化脚手架的细致打磨。

DeepSeek 每次推出新模型的时候,相比于模型性能有多好或者价格有多低,我感觉最有价值的是发表的那些论文,惠及所有人的知识财富。

前几天也看到站里有一些未经核实的相关情报,我感觉不至于说是因为进步不多,或者说其他人迭代太快超过了自己准备发布的版本,而导致延期发布。
个人感觉 DeepSeek v4 这次的发布应该会把多模态和长上下文端上来,大概率应该是能跑在完全国产可控的训练集群上,不说能一举打破英伟达的护城河吧,至少表明了以后跑在国内万卡集群上不是难事,提振一下国内的信心。论文成果应该也不会缺席。

因为之前听到的更多还是都说国内的平台确实有,国产卡的价格也合适,集群规模也能做大,但是相比 Cuda 太难用了,说 Bug 多什么的,说啥不亚于用汇编一样的话,这次 DeepSeek 如果证明了能用,即使说没有多好用,也至少说扫除了前方的阴霾,告诉所有人全国产不是问题,没有 NVIDIA 的卡不代表着国内发展不了 AI,肯定又是一个新的 DeepSeek 时刻。

国内现在可能确实制程受限制,但是国内确实就更擅长做力大砖飞的事情,我没有太细致的了解,至少国内的电力系统应该绝对的领先,咱们不缺地方,也不缺电,过度的节省空间就有点本末倒置了,毕竟都是为了训练模型嘛,最终目的也不是为了炫技。

阅读全文