其实冷静下来想想,V4比较突出的优点也只有注意力了

2026-04-29 09:522阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

其他的在当今的国模环境来说

都没啥突出的

而且没有多模态更是硬伤

也只有强大的注意力能说道做道了

网友解答:
--【壹】--:

ds是最不喜欢搞模型多版本的
网页专家和api pro 大概率就是同一个模型


--【贰】--:

我认为有注意力了,就基本保证了推理的准确性吧


--【叁】--:

所以说私有化部署一个v4,再做专项训练,突出的注意力的优势就会体现出来了?


--【肆】--:

闭源模型最危险的挑战者,开源模型最严厉的老师


--【伍】--:

不知道在酒馆里表现如何 ,编码目前看还是差点意思


--【陆】--:

image1884×1542 272 KB
其实Deepseek-V4-max当前在很多官方测试集和测试机构测试集上还是有一定领先幅度的第一的,只是网页版做的不太行,可能得用api。国内网页端做的最好的是Kimi。期待一下deepseek之后的后训练吧


--【柒】--:

没做专项训练 更像是上下文机制跑通了就端上来了 确实很deepseek 就没打算商业化


--【捌】--:

但推理强度估计不是Max,当前Pro的推理强度有[high, max]两个等级,而且网页版的工具调用也不如kimi,不过搜索还行。


--【玖】--:

深以为然
ds用一堆别人早就瞧不上眼的算力资源,能追赶顶级模型,甚至部分超越,已经屌炸了
还开源给全世界用

这是什么精神!

要美帝敢开放算力,早就把美帝模型按地上了


--【拾】--:

上下文是模型性能的决定性指标之一,隔壁Gemini3.X就是因为上下文和注意力上明显缺陷在很多场景(特别是coding)沦为路边


--【拾壹】--:

所里利好国内其他模型呀,起码在ds发布后,他们很大概率会有很长足的进步。


--【拾贰】--:

base model没啥问题,世界观和逻辑都可以,后训练还差点意思,感觉已经很不错了


--【拾叁】--:

使用起来体验确实如此,说得很到位。
不过我还是保持对deepseek后训练能力的信任的,相信!


--【拾肆】--:

确实

希望其他国产模型赶紧跟上吧

长上下文的注意力确实是现在国产模型的一个硬伤


--【拾伍】--:

image1039×375 62.3 KB

相信ds 也相信1M上下文会在国产模型里率先普及

PS:国产大模型各家真的竞争激烈啊 美国也就御三家能排上号 国内在算力不足的情况下能这么多家真的奇迹


--【拾陆】--:

我一看长上下文 + 强注意力就想到酒馆表现是不是能挺不错;想测试一下但感觉手头没什么好的对比用例,等等类脑动静吧hh


--【拾柒】--:

1.6T的基模不是谁都训的动的 还是等后续版本吧


--【拾捌】--:

我記得2月的時候,看到好多佬友都說V4一定是多模態,而且會改變行業,到了今天,哭死了


--【拾玖】--:

deepseek的贡献不是让你用一个多好的产品吧,这么一开源,其他模型参考下它能力肯定也有提升,这才是他的价值:低成本保持比肩顶级闭源模型的能力–>开源–>开源生态模型们借鉴提升自己–>威胁闭源模型–>降价,所有人收益。D师傅还是那个D师傅,我哭死

问题描述:

其他的在当今的国模环境来说

都没啥突出的

而且没有多模态更是硬伤

也只有强大的注意力能说道做道了

网友解答:
--【壹】--:

ds是最不喜欢搞模型多版本的
网页专家和api pro 大概率就是同一个模型


--【贰】--:

我认为有注意力了,就基本保证了推理的准确性吧


--【叁】--:

所以说私有化部署一个v4,再做专项训练,突出的注意力的优势就会体现出来了?


--【肆】--:

闭源模型最危险的挑战者,开源模型最严厉的老师


--【伍】--:

不知道在酒馆里表现如何 ,编码目前看还是差点意思


--【陆】--:

image1884×1542 272 KB
其实Deepseek-V4-max当前在很多官方测试集和测试机构测试集上还是有一定领先幅度的第一的,只是网页版做的不太行,可能得用api。国内网页端做的最好的是Kimi。期待一下deepseek之后的后训练吧


--【柒】--:

没做专项训练 更像是上下文机制跑通了就端上来了 确实很deepseek 就没打算商业化


--【捌】--:

但推理强度估计不是Max,当前Pro的推理强度有[high, max]两个等级,而且网页版的工具调用也不如kimi,不过搜索还行。


--【玖】--:

深以为然
ds用一堆别人早就瞧不上眼的算力资源,能追赶顶级模型,甚至部分超越,已经屌炸了
还开源给全世界用

这是什么精神!

要美帝敢开放算力,早就把美帝模型按地上了


--【拾】--:

上下文是模型性能的决定性指标之一,隔壁Gemini3.X就是因为上下文和注意力上明显缺陷在很多场景(特别是coding)沦为路边


--【拾壹】--:

所里利好国内其他模型呀,起码在ds发布后,他们很大概率会有很长足的进步。


--【拾贰】--:

base model没啥问题,世界观和逻辑都可以,后训练还差点意思,感觉已经很不错了


--【拾叁】--:

使用起来体验确实如此,说得很到位。
不过我还是保持对deepseek后训练能力的信任的,相信!


--【拾肆】--:

确实

希望其他国产模型赶紧跟上吧

长上下文的注意力确实是现在国产模型的一个硬伤


--【拾伍】--:

image1039×375 62.3 KB

相信ds 也相信1M上下文会在国产模型里率先普及

PS:国产大模型各家真的竞争激烈啊 美国也就御三家能排上号 国内在算力不足的情况下能这么多家真的奇迹


--【拾陆】--:

我一看长上下文 + 强注意力就想到酒馆表现是不是能挺不错;想测试一下但感觉手头没什么好的对比用例,等等类脑动静吧hh


--【拾柒】--:

1.6T的基模不是谁都训的动的 还是等后续版本吧


--【拾捌】--:

我記得2月的時候,看到好多佬友都說V4一定是多模態,而且會改變行業,到了今天,哭死了


--【拾玖】--:

deepseek的贡献不是让你用一个多好的产品吧,这么一开源,其他模型参考下它能力肯定也有提升,这才是他的价值:低成本保持比肩顶级闭源模型的能力–>开源–>开源生态模型们借鉴提升自己–>威胁闭源模型–>降价,所有人收益。D师傅还是那个D师傅,我哭死