主流旗舰模型(GPT、Claude、Gemini、DeepSeek) 长上下文性能表现一览图

2026-04-29 08:422阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

竟然没人做那就只好我亲自动手了()

IMG29942995×1843 346 KB

允许转载

其中:

Gemini 3.1 Pro 报告了 128K 与 1M 上下文窗口时的数据

Claude 两款模型报告了 256K 和 1M 下的数据

实心点为数据点

网友解答:
--【壹】--:

谁能解释一下为什么gpt5.5的256K和512K的成绩比它128K的还要好
这东西不应该会回弹吧


--【贰】--:

Opus 4.6和GPT-5.5还是可以的

4.7和5.4不太行


--【叁】--:

512k-1m这个区间gpt和opus真有这么强吗?我表示怀疑


--【肆】--:

GLM-5.1 和 K2.6 是不支持1m上下文吧,我记得还有给qwen 3.6plus也支持1m上下文


--【伍】--: jerry_y:

GLM-5.1 和 K2.6 是不支持1m上下文吧

主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有


--【陆】--:

我靠,可别搞我心态啊。。。官方Tech Report没有写明是V1还是V2,我寻思着应该不至于测V1吧


--【柒】--:

ds那个是v2还是v1 我记得看有人发帖他们用的不是同一个benchmark版本?


--【捌】--:

请教下佬,这个图要怎么看的,为什么有些是中途才出现,那之前是100%?


--【玖】--:

难道不是因为这两个没有1m上下文么……这个比较参加不了


--【拾】--:

没有 GLM-5.1 和 K2.6 是因为这两家没有报告相关数据,还是有点可惜的

期待有第三方可以做一下这两个模型的数据


--【拾壹】--:

5.5 1M上下文不会出现5.4一样的复读机情况了嘛。那这样长对话情况1M上下文相比较于自动压缩是不是性能更好了。


--【拾贰】--:

谢谢佬友指教,不过看这个性能表现,opus4.7居然差4.6这么多。
而且这个图利好deepseek,国产之光了


--【拾叁】--:

opus4.6还是太权威了,GPT-5.5有原生1M上下文性能也正常了


--【拾肆】--: VrianCao:

主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有

0-256K至少还是应该报告一下的,可惜并没有OvO


--【拾伍】--:

中途出现的就是厂商从这个区间开始报告的,如 Gemini 3.1 Pro 模型卡中只报告了 128K 和 1M 两个上下文窗口下的性能表现

具体可以看实心点,实心点是有报告的值

标签:人工智能
问题描述:

竟然没人做那就只好我亲自动手了()

IMG29942995×1843 346 KB

允许转载

其中:

Gemini 3.1 Pro 报告了 128K 与 1M 上下文窗口时的数据

Claude 两款模型报告了 256K 和 1M 下的数据

实心点为数据点

网友解答:
--【壹】--:

谁能解释一下为什么gpt5.5的256K和512K的成绩比它128K的还要好
这东西不应该会回弹吧


--【贰】--:

Opus 4.6和GPT-5.5还是可以的

4.7和5.4不太行


--【叁】--:

512k-1m这个区间gpt和opus真有这么强吗?我表示怀疑


--【肆】--:

GLM-5.1 和 K2.6 是不支持1m上下文吧,我记得还有给qwen 3.6plus也支持1m上下文


--【伍】--: jerry_y:

GLM-5.1 和 K2.6 是不支持1m上下文吧

主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有


--【陆】--:

我靠,可别搞我心态啊。。。官方Tech Report没有写明是V1还是V2,我寻思着应该不至于测V1吧


--【柒】--:

ds那个是v2还是v1 我记得看有人发帖他们用的不是同一个benchmark版本?


--【捌】--:

请教下佬,这个图要怎么看的,为什么有些是中途才出现,那之前是100%?


--【玖】--:

难道不是因为这两个没有1m上下文么……这个比较参加不了


--【拾】--:

没有 GLM-5.1 和 K2.6 是因为这两家没有报告相关数据,还是有点可惜的

期待有第三方可以做一下这两个模型的数据


--【拾壹】--:

5.5 1M上下文不会出现5.4一样的复读机情况了嘛。那这样长对话情况1M上下文相比较于自动压缩是不是性能更好了。


--【拾贰】--:

谢谢佬友指教,不过看这个性能表现,opus4.7居然差4.6这么多。
而且这个图利好deepseek,国产之光了


--【拾叁】--:

opus4.6还是太权威了,GPT-5.5有原生1M上下文性能也正常了


--【拾肆】--: VrianCao:

主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有

0-256K至少还是应该报告一下的,可惜并没有OvO


--【拾伍】--:

中途出现的就是厂商从这个区间开始报告的,如 Gemini 3.1 Pro 模型卡中只报告了 128K 和 1M 两个上下文窗口下的性能表现

具体可以看实心点,实心点是有报告的值

标签:人工智能