除去Agentic和多模态能力,这一年基模底层真的进步了多少?

2026-04-29 09:232阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

江山代有大模出,各领风骚数十天。如这个帖子所述,大模型的SOTA变动之快,让人目不暇接。虽说每次更新都有指标上的进步,但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。

于是我挺好奇,现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比,抛开多模态和agentic能力不谈,究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样,或许这样比较能更清晰的看出真实的进步。

个人认为基模能力的正交指标可以从下面几个维度比较:

  1. 智力和推理能力
  2. 知识量和输出的知识密度
  3. 文风,及文风的刻板程度
  4. 上下文保持能力和命令遵从能力
  5. 幻觉与谄媚

我发现幻觉率是有明显下降的,其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等,感受可能不太客观。

欢迎大家分享下自己的体验~想看看在大家的归纳偏好(Inductive Bias)中,在同比的时间维度下,本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少?也不一定限于g25p0325,只要是时间上近似同比的,具有可比性的模型都可以。

网友解答:
--【壹】--:

我感觉模型迭代已经进入 14-15 年的手机迭代期了,再往后就是要价格战了


--【贰】--:

现在已经是后训练时代了,预训练各厂都没有太大差距


--【叁】--:

这一年以来有印象的就opus4.5,还有gpt5.4到5.5,其他时段进化不大


--【肆】--:

我基本不用模型去完成什么工作,主要是分析知识、学习知识。我感觉,就是现在不管是国外的那种 flash 模型,还是国内的这些模型,在帮助学习上,其实已经足够普通人用了。

阅读全文
问题描述:

江山代有大模出,各领风骚数十天。如这个帖子所述,大模型的SOTA变动之快,让人目不暇接。虽说每次更新都有指标上的进步,但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。

于是我挺好奇,现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比,抛开多模态和agentic能力不谈,究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样,或许这样比较能更清晰的看出真实的进步。

个人认为基模能力的正交指标可以从下面几个维度比较:

  1. 智力和推理能力
  2. 知识量和输出的知识密度
  3. 文风,及文风的刻板程度
  4. 上下文保持能力和命令遵从能力
  5. 幻觉与谄媚

我发现幻觉率是有明显下降的,其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、RolePlay等,感受可能不太客观。

欢迎大家分享下自己的体验~想看看在大家的归纳偏好(Inductive Bias)中,在同比的时间维度下,本世代和上一世代的无降智满血旗舰模型比起来究竟进步了多少?也不一定限于g25p0325,只要是时间上近似同比的,具有可比性的模型都可以。

网友解答:
--【壹】--:

我感觉模型迭代已经进入 14-15 年的手机迭代期了,再往后就是要价格战了


--【贰】--:

现在已经是后训练时代了,预训练各厂都没有太大差距


--【叁】--:

这一年以来有印象的就opus4.5,还有gpt5.4到5.5,其他时段进化不大


--【肆】--:

我基本不用模型去完成什么工作,主要是分析知识、学习知识。我感觉,就是现在不管是国外的那种 flash 模型,还是国内的这些模型,在帮助学习上,其实已经足够普通人用了。

阅读全文