v4我觉得最牛逼的点在这里,真的源神,懂得应该懂
- 内容介绍
- 文章标签
- 相关推荐
Screenshot2026-04-24-13-07-40-70e39d2c7de19156b0683cd93e8735f3481264×2780 400 KB
个人见解 不喜勿喷
v4 别的不说,世界知识这一点确实牛逼大了 这预训练真的下了难以想象的苦工或者说技术突破了…
Claude和gpt其实也没做到接近gemini的世界知识
国内更是没有一家能碰瓷的 都在玩coding特化这条路,比如靠opus迭代 蒸馏的就发个版本的minimax,刷分刷的离谱,实际体验拉胯,kimi整体好点但也是分和体验对不上的。也就glm蒸出点东西了,分数和coding体验比较接近。至于qwen那种不知道什么原因参数越大越不行 出现很强边际效应的,预训练肯定也有很大问题。
不用说,现在其他国模肯定在连夜赶紧知识蒸馏v4甚至基于二次预训练
想各种办法融合到他们的moe里了
deepseek这下真的源神了
如果deepseek不开源开放权重 其他国模这辈子应该都不会有这样的世界知识水平
--【壹】--:
日常使用中,我还真没感受到GEMINI Pro 的世界知识丰富,佬一般是做什么任务,能感受到明显差异的?
--【贰】--:
@yeahhe
墨子佬你怎么看?我记得你之前很喜欢Gemini的世界观的?
(等你发评测?
--【叁】--:
不管怎么样,直接说这种内容都是不合适的
51c1a16290d4b10eb396a6faaba187cf1280×1688 285 KB
--【肆】--:
个人认为最牛的是这个
image848×754 110 KB
--【伍】--: Mozi:
刀小朋友的危险发言
哈哈这个应该是引用原问题那个冷笑话的答案吧 感觉上升不到模型安全性的程度
--【陆】--:
隔壁帖看到的图,确实赢了Gemini,只不过赢的是Gemini 3.1 Flash Lite
artificial analysis 测试 v4 flash max幻觉率排名倒数第一 前沿快讯pro的成绩也在上面 综合来看感觉不太行 幻觉率高但是总体来看正确率尚可 [image] [image] [image]
image690×447 45.2 KB
--【柒】--:
可以等一下AA-Omniscience成绩,包含Accuracy和Hallucination Rate。
认知能力要跟低幻觉率匹配才好用。
有的时候,所谓的“高认知”是针对benchmark刷出来的,幻觉率高的吓人。
对于很多题目来说,如果模型回答“我不知道”,那就是0分。如果瞎编一些看上去合理的答案,可能有一点分,所以这个指标可能会有很强的误导性。
--【捌】--:
按照这个说法,大家应该去蒸馏gemini阿。虽然我很喜欢gemini的知识库丰富,逻辑智力很好。
--【玖】--:
确实 之前给3.1p看一个24年番里人物的图片 不仅能说出来是谁 还能说出来图片里的服饰第一次出场在哪一集 印象深刻
--【拾】--:
实测幻觉水平反而退步了
v3.2都慢慢变好了
--【拾壹】--: hexyan:
如果deepseek不开源开放权重 其他国模这辈子应该都不会有这样的世界知识水平
有点太绝对了,我觉得还是成本问题,没那个并联的基础,训练大模型,要知道ds的参数大了,
--【拾贰】--:
e8b50e7ca815d48169f164c0a3bfbb4e1172×2748 273 KB
永远不要低估股民的世界知识积累,人家都是真金白银学出来的
--【拾叁】--:
我觉得Deepseek的数据还是不够优质,今天看见Deepseek大量幻觉的例子,甚至还有刀小朋友的危险发言
对L站也是完全不了解,我要问一个知识问题,我是不敢问Deepseek的
PixPin2026-04-2416-34-29821×600 82.6 KB
--【拾肆】--:
幻觉好高啊,关于linux.do是什么,如果知识库里完全没有,那么最起码联网搜一下。
直接根据网站名字猜来,这个就很不靠谱了。
--【拾伍】--:
这是单次对话的输出结果吗 那确实有点恐怖了。。 我以为只是额外提一嘴黑色幽默的程度
--【拾陆】--:
DeepSeek官方自己的技术报告里就写了,V4-Pro在SimpleQA-Verified上是57.9,Gemini 3.1 Pro是75.6,差距其实还挺明显的。
而且Claude和GPT也不是"没做到接近Gemini"
GPT-5.4在SimpleQA上差不多97分,是全榜最高的,三家其实各有各的强项,不完全是Gemini一家独大。
要说SOTA,可能定语还得加个"开源权重模型里面最强的世界知识"
--【拾柒】--:
这辈子确实太绝对了,但是短期内肯定没人做到这种水平,因为投入产出比太低了。
deepseek现在的算力也不出众,真的是一种追求不将就才能驱使他们做成这样。
国内算力最好的现在应该是字节 阿里 但是doubaoseed pro2.0 也不如v4。数据集语料和预训练,很多时候靠人海战术是可以做到优秀的。deepseek的人相比seed和阿里的人也太少了,但是却能干好。
--【拾捌】--:
关于其他国模"连夜蒸馏V4补世界知识"这个判断,这里可能有个技术上的小误解。蒸馏能迁移的主要是推理模式、输出风格、解题套路这些东西,但世界知识(事实性记忆)本质上是预训练数据量和参数容量决定的。拿V4的输出去SFT另一个模型,补不出对方预训练里本来就缺的事实,反而容易引入幻觉。所以如果其他家真的想补世界知识,更现实的路径是二次预训练或者扩数据,而不是蒸馏V4的输出。
V4这次确实是开源社区的一个大事件,中文SimpleQA 84.4、1M上下文效率、价格,这些都是实打实的。但"源神"、"其他国模这辈子都达不到"这种说法可能有点情绪化了------世界知识的差距本质是算力+数据+时间的问题,别家慢慢追也追得上,DeepSeek的贡献是把门槛打低了,不是唯一通路。
--【拾玖】--:
Gemini的参数里面还是有大量视觉信息的,大量人物、视觉逻辑推理都能做,这部分Deepseek也是空白
Screenshot2026-04-24-13-07-40-70e39d2c7de19156b0683cd93e8735f3481264×2780 400 KB
个人见解 不喜勿喷
v4 别的不说,世界知识这一点确实牛逼大了 这预训练真的下了难以想象的苦工或者说技术突破了…
Claude和gpt其实也没做到接近gemini的世界知识
国内更是没有一家能碰瓷的 都在玩coding特化这条路,比如靠opus迭代 蒸馏的就发个版本的minimax,刷分刷的离谱,实际体验拉胯,kimi整体好点但也是分和体验对不上的。也就glm蒸出点东西了,分数和coding体验比较接近。至于qwen那种不知道什么原因参数越大越不行 出现很强边际效应的,预训练肯定也有很大问题。
不用说,现在其他国模肯定在连夜赶紧知识蒸馏v4甚至基于二次预训练
想各种办法融合到他们的moe里了
deepseek这下真的源神了
如果deepseek不开源开放权重 其他国模这辈子应该都不会有这样的世界知识水平
--【壹】--:
日常使用中,我还真没感受到GEMINI Pro 的世界知识丰富,佬一般是做什么任务,能感受到明显差异的?
--【贰】--:
@yeahhe
墨子佬你怎么看?我记得你之前很喜欢Gemini的世界观的?
(等你发评测?
--【叁】--:
不管怎么样,直接说这种内容都是不合适的
51c1a16290d4b10eb396a6faaba187cf1280×1688 285 KB
--【肆】--:
个人认为最牛的是这个
image848×754 110 KB
--【伍】--: Mozi:
刀小朋友的危险发言
哈哈这个应该是引用原问题那个冷笑话的答案吧 感觉上升不到模型安全性的程度
--【陆】--:
隔壁帖看到的图,确实赢了Gemini,只不过赢的是Gemini 3.1 Flash Lite
artificial analysis 测试 v4 flash max幻觉率排名倒数第一 前沿快讯pro的成绩也在上面 综合来看感觉不太行 幻觉率高但是总体来看正确率尚可 [image] [image] [image]
image690×447 45.2 KB
--【柒】--:
可以等一下AA-Omniscience成绩,包含Accuracy和Hallucination Rate。
认知能力要跟低幻觉率匹配才好用。
有的时候,所谓的“高认知”是针对benchmark刷出来的,幻觉率高的吓人。
对于很多题目来说,如果模型回答“我不知道”,那就是0分。如果瞎编一些看上去合理的答案,可能有一点分,所以这个指标可能会有很强的误导性。
--【捌】--:
按照这个说法,大家应该去蒸馏gemini阿。虽然我很喜欢gemini的知识库丰富,逻辑智力很好。
--【玖】--:
确实 之前给3.1p看一个24年番里人物的图片 不仅能说出来是谁 还能说出来图片里的服饰第一次出场在哪一集 印象深刻
--【拾】--:
实测幻觉水平反而退步了
v3.2都慢慢变好了
--【拾壹】--: hexyan:
如果deepseek不开源开放权重 其他国模这辈子应该都不会有这样的世界知识水平
有点太绝对了,我觉得还是成本问题,没那个并联的基础,训练大模型,要知道ds的参数大了,
--【拾贰】--:
e8b50e7ca815d48169f164c0a3bfbb4e1172×2748 273 KB
永远不要低估股民的世界知识积累,人家都是真金白银学出来的
--【拾叁】--:
我觉得Deepseek的数据还是不够优质,今天看见Deepseek大量幻觉的例子,甚至还有刀小朋友的危险发言
对L站也是完全不了解,我要问一个知识问题,我是不敢问Deepseek的
PixPin2026-04-2416-34-29821×600 82.6 KB
--【拾肆】--:
幻觉好高啊,关于linux.do是什么,如果知识库里完全没有,那么最起码联网搜一下。
直接根据网站名字猜来,这个就很不靠谱了。
--【拾伍】--:
这是单次对话的输出结果吗 那确实有点恐怖了。。 我以为只是额外提一嘴黑色幽默的程度
--【拾陆】--:
DeepSeek官方自己的技术报告里就写了,V4-Pro在SimpleQA-Verified上是57.9,Gemini 3.1 Pro是75.6,差距其实还挺明显的。
而且Claude和GPT也不是"没做到接近Gemini"
GPT-5.4在SimpleQA上差不多97分,是全榜最高的,三家其实各有各的强项,不完全是Gemini一家独大。
要说SOTA,可能定语还得加个"开源权重模型里面最强的世界知识"
--【拾柒】--:
这辈子确实太绝对了,但是短期内肯定没人做到这种水平,因为投入产出比太低了。
deepseek现在的算力也不出众,真的是一种追求不将就才能驱使他们做成这样。
国内算力最好的现在应该是字节 阿里 但是doubaoseed pro2.0 也不如v4。数据集语料和预训练,很多时候靠人海战术是可以做到优秀的。deepseek的人相比seed和阿里的人也太少了,但是却能干好。
--【拾捌】--:
关于其他国模"连夜蒸馏V4补世界知识"这个判断,这里可能有个技术上的小误解。蒸馏能迁移的主要是推理模式、输出风格、解题套路这些东西,但世界知识(事实性记忆)本质上是预训练数据量和参数容量决定的。拿V4的输出去SFT另一个模型,补不出对方预训练里本来就缺的事实,反而容易引入幻觉。所以如果其他家真的想补世界知识,更现实的路径是二次预训练或者扩数据,而不是蒸馏V4的输出。
V4这次确实是开源社区的一个大事件,中文SimpleQA 84.4、1M上下文效率、价格,这些都是实打实的。但"源神"、"其他国模这辈子都达不到"这种说法可能有点情绪化了------世界知识的差距本质是算力+数据+时间的问题,别家慢慢追也追得上,DeepSeek的贡献是把门槛打低了,不是唯一通路。
--【拾玖】--:
Gemini的参数里面还是有大量视觉信息的,大量人物、视觉逻辑推理都能做,这部分Deepseek也是空白

