除去Agentic和多模态能力,这一年基模底层真的进步了多少?
- 内容介绍
- 文章标签
- 相关推荐
江山代有大模出,各领风骚数十天。如这个帖子所述,大模型的SOTA变动之快,让人目不暇接。虽说每次更新都有指标上的进步,但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。
于是我挺好奇,现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比,抛开多模态和agentic能力不谈,究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样,或许这样比较能更清晰的看出真实的进步。
个人认为基模能力的正交指标可以从下面几个维度比较:
- 智力和推理能力
- 知识量和输出的知识密度
- 文风,及文风的刻板程度
- 上下文保持能力和命令遵从能力
- 幻觉与谄媚
我发现幻觉率是有明显下降的,其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等,感受可能不太客观。
欢迎大家分享下自己的体验~想看看在大家的归纳偏好(Inductive Bias)中,在同比的时间维度下,本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少?也不一定限于g25p0325,只要是时间上近似同比的,具有可比性的模型都可以。
网友解答:--【壹】--:
我感觉模型迭代已经进入 14-15 年的手机迭代期了,再往后就是要价格战了
--【贰】--:
现在已经是后训练时代了,预训练各厂都没有太大差距
--【叁】--:
这一年以来有印象的就opus4.5,还有gpt5.4到5.5,其他时段进化不大
--【肆】--:
我基本不用模型去完成什么工作,主要是分析知识、学习知识。我感觉,就是现在不管是国外的那种 flash 模型,还是国内的这些模型,在帮助学习上,其实已经足够普通人用了。
--【伍】--:
我不知道。
但玩够了opus和gpt,我现在是真想玩玩DS
--【陆】--:
感觉多模态应该算在里面吧?
除了gpt 5.5还有谁家重新预训练了吗
--【柒】--:
个人感觉,和模型的参数量扩大直接相关,参数量变化不大的模型区别也不大。
--【捌】--:
手机能够进入价格战是因为有利润空间,大模型首先要完成压低成本阶段才可能进入价格战阶段
--【玖】--:
进入不到价格战,现在的问题主要是大家不是缺算力就是缺电,要不然就是因为中东的问题影响数据中心,模型的推理成本又居高不下,现在都是烧钱,像是打车大战,出清之后就是赢家通吃提高价格
江山代有大模出,各领风骚数十天。如这个帖子所述,大模型的SOTA变动之快,让人目不暇接。虽说每次更新都有指标上的进步,但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。
于是我挺好奇,现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比,抛开多模态和agentic能力不谈,究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样,或许这样比较能更清晰的看出真实的进步。
个人认为基模能力的正交指标可以从下面几个维度比较:
- 智力和推理能力
- 知识量和输出的知识密度
- 文风,及文风的刻板程度
- 上下文保持能力和命令遵从能力
- 幻觉与谄媚
我发现幻觉率是有明显下降的,其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等,感受可能不太客观。
欢迎大家分享下自己的体验~想看看在大家的归纳偏好(Inductive Bias)中,在同比的时间维度下,本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少?也不一定限于g25p0325,只要是时间上近似同比的,具有可比性的模型都可以。
网友解答:--【壹】--:
我感觉模型迭代已经进入 14-15 年的手机迭代期了,再往后就是要价格战了
--【贰】--:
现在已经是后训练时代了,预训练各厂都没有太大差距
--【叁】--:
这一年以来有印象的就opus4.5,还有gpt5.4到5.5,其他时段进化不大
--【肆】--:
我基本不用模型去完成什么工作,主要是分析知识、学习知识。我感觉,就是现在不管是国外的那种 flash 模型,还是国内的这些模型,在帮助学习上,其实已经足够普通人用了。
--【伍】--:
我不知道。
但玩够了opus和gpt,我现在是真想玩玩DS
--【陆】--:
感觉多模态应该算在里面吧?
除了gpt 5.5还有谁家重新预训练了吗
--【柒】--:
个人感觉,和模型的参数量扩大直接相关,参数量变化不大的模型区别也不大。
--【捌】--:
手机能够进入价格战是因为有利润空间,大模型首先要完成压低成本阶段才可能进入价格战阶段
--【玖】--:
进入不到价格战,现在的问题主要是大家不是缺算力就是缺电,要不然就是因为中东的问题影响数据中心,模型的推理成本又居高不下,现在都是烧钱,像是打车大战,出清之后就是赢家通吃提高价格

