除去Agentic和多模态能力，这一年基模底层真的进步了多少？

2026-04-29 09:232阅读0评论SEO基础

问题描述：

江山代有大模出，各领风骚数十天。如这个帖子所述，大模型的SOTA变动之快，让人目不暇接。虽说每次更新都有指标上的进步，但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。

于是我挺好奇，现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比，抛开多模态和agentic能力不谈，究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样，或许这样比较能更清晰的看出真实的进步。

个人认为基模能力的正交指标可以从下面几个维度比较：

我发现幻觉率是有明显下降的，其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等，感受可能不太客观。

欢迎大家分享下自己的体验~想看看在大家的归纳偏好（Inductive Bias）中，在同比的时间维度下，本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少？也不一定限于g25p0325，只要是时间上近似同比的，具有可比性的模型都可以。

网友解答：

--【壹】--：

我感觉模型迭代已经进入 14-15 年的手机迭代期了，再往后就是要价格战了

--【贰】--：

现在已经是后训练时代了，预训练各厂都没有太大差距

--【叁】--：

这一年以来有印象的就opus4.5，还有gpt5.4到5.5，其他时段进化不大

--【肆】--：

我基本不用模型去完成什么工作，主要是分析知识、学习知识。我感觉，就是现在不管是国外的那种 flash 模型，还是国内的这些模型，在帮助学习上，其实已经足够普通人用了。