v4我觉得最牛逼的点在这里，真的源神，懂得应该懂

2026-04-29 10:122阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

Screenshot2026-04-24-13-07-40-70e39d2c7de19156b0683cd93e8735f3481264×2780 400 KB

个人见解不喜勿喷
v4 别的不说，世界知识这一点确实牛逼大了这预训练真的下了难以想象的苦工或者说技术突破了…
Claude和gpt其实也没做到接近gemini的世界知识
国内更是没有一家能碰瓷的都在玩coding特化这条路，比如靠opus迭代蒸馏的就发个版本的minimax，刷分刷的离谱，实际体验拉胯，kimi整体好点但也是分和体验对不上的。也就glm蒸出点东西了，分数和coding体验比较接近。至于qwen那种不知道什么原因参数越大越不行出现很强边际效应的，预训练肯定也有很大问题。

不用说，现在其他国模肯定在连夜赶紧知识蒸馏v4甚至基于二次预训练
想各种办法融合到他们的moe里了
deepseek这下真的源神了
如果deepseek不开源开放权重其他国模这辈子应该都不会有这样的世界知识水平

网友解答：

--【壹】--：

日常使用中，我还真没感受到GEMINI Pro 的世界知识丰富，佬一般是做什么任务，能感受到明显差异的？

--【贰】--：

@yeahhe
墨子佬你怎么看？我记得你之前很喜欢Gemini的世界观的？

（等你发评测？

--【叁】--：

不管怎么样，直接说这种内容都是不合适的
51c1a16290d4b10eb396a6faaba187cf1280×1688 285 KB

--【肆】--：

个人认为最牛的是这个
image848×754 110 KB

--【伍】--： Mozi:

刀小朋友的危险发言

哈哈这个应该是引用原问题那个冷笑话的答案吧感觉上升不到模型安全性的程度

--【陆】--：

隔壁帖看到的图，确实赢了Gemini，只不过赢的是Gemini 3.1 Flash Lite

artificial analysis 测试 v4 flash max幻觉率排名倒数第一前沿快讯

pro的成绩也在上面综合来看感觉不太行幻觉率高但是总体来看正确率尚可 [image] [image] [image]

image690×447 45.2 KB

--【柒】--：

可以等一下AA-Omniscience成绩，包含Accuracy和Hallucination Rate。

认知能力要跟低幻觉率匹配才好用。

有的时候，所谓的“高认知”是针对benchmark刷出来的，幻觉率高的吓人。

对于很多题目来说，如果模型回答“我不知道”，那就是0分。如果瞎编一些看上去合理的答案，可能有一点分，所以这个指标可能会有很强的误导性。

--【捌】--：

按照这个说法，大家应该去蒸馏gemini阿。虽然我很喜欢gemini的知识库丰富，逻辑智力很好。

--【玖】--：

确实之前给3.1p看一个24年番里人物的图片不仅能说出来是谁还能说出来图片里的服饰第一次出场在哪一集印象深刻

--【拾】--：

实测幻觉水平反而退步了
v3.2都慢慢变好了

--【拾壹】--： hexyan:

如果deepseek不开源开放权重其他国模这辈子应该都不会有这样的世界知识水平

有点太绝对了，我觉得还是成本问题，没那个并联的基础，训练大模型，要知道ds的参数大了，

--【拾贰】--：

e8b50e7ca815d48169f164c0a3bfbb4e1172×2748 273 KB

永远不要低估股民的世界知识积累，人家都是真金白银学出来的

--【拾叁】--：

我觉得Deepseek的数据还是不够优质，今天看见Deepseek大量幻觉的例子，甚至还有刀小朋友的危险发言
对L站也是完全不了解，我要问一个知识问题，我是不敢问Deepseek的

PixPin2026-04-2416-34-29821×600 82.6 KB

--【拾肆】--：

幻觉好高啊，关于linux.do是什么，如果知识库里完全没有，那么最起码联网搜一下。
直接根据网站名字猜来，这个就很不靠谱了。

--【拾伍】--：

这是单次对话的输出结果吗那确实有点恐怖了。。我以为只是额外提一嘴黑色幽默的程度

--【拾陆】--：

DeepSeek官方自己的技术报告里就写了，V4-Pro在SimpleQA-Verified上是57.9，Gemini 3.1 Pro是75.6，差距其实还挺明显的。

而且Claude和GPT也不是"没做到接近Gemini"

GPT-5.4在SimpleQA上差不多97分，是全榜最高的，三家其实各有各的强项，不完全是Gemini一家独大。

要说SOTA，可能定语还得加个"开源权重模型里面最强的世界知识"

--【拾柒】--：

这辈子确实太绝对了，但是短期内肯定没人做到这种水平，因为投入产出比太低了。

deepseek现在的算力也不出众，真的是一种追求不将就才能驱使他们做成这样。

国内算力最好的现在应该是字节阿里但是doubaoseed pro2.0 也不如v4。数据集语料和预训练，很多时候靠人海战术是可以做到优秀的。deepseek的人相比seed和阿里的人也太少了，但是却能干好。

--【拾捌】--：

关于其他国模"连夜蒸馏V4补世界知识"这个判断，这里可能有个技术上的小误解。蒸馏能迁移的主要是推理模式、输出风格、解题套路这些东西，但世界知识（事实性记忆）本质上是预训练数据量和参数容量决定的。拿V4的输出去SFT另一个模型，补不出对方预训练里本来就缺的事实，反而容易引入幻觉。所以如果其他家真的想补世界知识，更现实的路径是二次预训练或者扩数据，而不是蒸馏V4的输出。
V4这次确实是开源社区的一个大事件，中文SimpleQA 84.4、1M上下文效率、价格，这些都是实打实的。但"源神"、"其他国模这辈子都达不到"这种说法可能有点情绪化了------世界知识的差距本质是算力+数据+时间的问题，别家慢慢追也追得上，DeepSeek的贡献是把门槛打低了，不是唯一通路。

--【拾玖】--：

Gemini的参数里面还是有大量视觉信息的，大量人物、视觉逻辑推理都能做，这部分Deepseek也是空白

标签：人工智能