除去Agentic和多模态能力，这一年基模底层真的进步了多少？

2026-04-29 09:233阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

江山代有大模出，各领风骚数十天。如这个帖子所述，大模型的SOTA变动之快，让人目不暇接。虽说每次更新都有指标上的进步，但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。

于是我挺好奇，现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比，抛开多模态和agentic能力不谈，究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样，或许这样比较能更清晰的看出真实的进步。

个人认为基模能力的正交指标可以从下面几个维度比较：

智力和推理能力
知识量和输出的知识密度
文风，及文风的刻板程度
上下文保持能力和命令遵从能力
幻觉与谄媚

我发现幻觉率是有明显下降的，其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等，感受可能不太客观。

欢迎大家分享下自己的体验~想看看在大家的归纳偏好（Inductive Bias）中，在同比的时间维度下，本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少？也不一定限于g25p0325，只要是时间上近似同比的，具有可比性的模型都可以。

网友解答：

--【壹】--：

我感觉模型迭代已经进入 14-15 年的手机迭代期了，再往后就是要价格战了

--【贰】--：

现在已经是后训练时代了，预训练各厂都没有太大差距

--【叁】--：

这一年以来有印象的就opus4.5，还有gpt5.4到5.5，其他时段进化不大

--【肆】--：

我基本不用模型去完成什么工作，主要是分析知识、学习知识。我感觉，就是现在不管是国外的那种 flash 模型，还是国内的这些模型，在帮助学习上，其实已经足够普通人用了。

--【伍】--：

我不知道。

但玩够了opus和gpt，我现在是真想玩玩DS

--【陆】--：

感觉多模态应该算在里面吧？
除了gpt 5.5还有谁家重新预训练了吗

--【柒】--：

个人感觉，和模型的参数量扩大直接相关，参数量变化不大的模型区别也不大。

--【捌】--：

手机能够进入价格战是因为有利润空间，大模型首先要完成压低成本阶段才可能进入价格战阶段

--【玖】--：

进入不到价格战，现在的问题主要是大家不是缺算力就是缺电，要不然就是因为中东的问题影响数据中心，模型的推理成本又居高不下，现在都是烧钱，像是打车大战，出清之后就是赢家通吃提高价格

标签：人工智能纯水