主流旗舰模型(GPT、Claude、Gemini、DeepSeek) 长上下文性能表现一览图
- 内容介绍
- 文章标签
- 相关推荐
竟然没人做那就只好我亲自动手了()
IMG29942995×1843 346 KB
允许转载
其中:
Gemini 3.1 Pro 报告了 128K 与 1M 上下文窗口时的数据
Claude 两款模型报告了 256K 和 1M 下的数据
实心点为数据点
网友解答:--【壹】--:
谁能解释一下为什么gpt5.5的256K和512K的成绩比它128K的还要好
这东西不应该会回弹吧
--【贰】--:
Opus 4.6和GPT-5.5还是可以的
4.7和5.4不太行
--【叁】--:
512k-1m这个区间gpt和opus真有这么强吗?我表示怀疑
--【肆】--:
GLM-5.1 和 K2.6 是不支持1m上下文吧,我记得还有给qwen 3.6plus也支持1m上下文
--【伍】--: jerry_y:
GLM-5.1 和 K2.6 是不支持1m上下文吧
主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有
--【陆】--:
我靠,可别搞我心态啊。。。官方Tech Report没有写明是V1还是V2,我寻思着应该不至于测V1吧
--【柒】--:
ds那个是v2还是v1 我记得看有人发帖他们用的不是同一个benchmark版本?
--【捌】--:
请教下佬,这个图要怎么看的,为什么有些是中途才出现,那之前是100%?
--【玖】--:
难道不是因为这两个没有1m上下文么……这个比较参加不了
--【拾】--:
没有 GLM-5.1 和 K2.6 是因为这两家没有报告相关数据,还是有点可惜的
期待有第三方可以做一下这两个模型的数据
--【拾壹】--:
5.5 1M上下文不会出现5.4一样的复读机情况了嘛。那这样长对话情况1M上下文相比较于自动压缩是不是性能更好了。
--【拾贰】--:
谢谢佬友指教,不过看这个性能表现,opus4.7居然差4.6这么多。
而且这个图利好deepseek,国产之光了
--【拾叁】--:
opus4.6还是太权威了,GPT-5.5有原生1M上下文性能也正常了
--【拾肆】--: VrianCao:
主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有
0-256K至少还是应该报告一下的,可惜并没有OvO
--【拾伍】--:
中途出现的就是厂商从这个区间开始报告的,如 Gemini 3.1 Pro 模型卡中只报告了 128K 和 1M 两个上下文窗口下的性能表现
具体可以看实心点,实心点是有报告的值
竟然没人做那就只好我亲自动手了()
IMG29942995×1843 346 KB
允许转载
其中:
Gemini 3.1 Pro 报告了 128K 与 1M 上下文窗口时的数据
Claude 两款模型报告了 256K 和 1M 下的数据
实心点为数据点
网友解答:--【壹】--:
谁能解释一下为什么gpt5.5的256K和512K的成绩比它128K的还要好
这东西不应该会回弹吧
--【贰】--:
Opus 4.6和GPT-5.5还是可以的
4.7和5.4不太行
--【叁】--:
512k-1m这个区间gpt和opus真有这么强吗?我表示怀疑
--【肆】--:
GLM-5.1 和 K2.6 是不支持1m上下文吧,我记得还有给qwen 3.6plus也支持1m上下文
--【伍】--: jerry_y:
GLM-5.1 和 K2.6 是不支持1m上下文吧
主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有
--【陆】--:
我靠,可别搞我心态啊。。。官方Tech Report没有写明是V1还是V2,我寻思着应该不至于测V1吧
--【柒】--:
ds那个是v2还是v1 我记得看有人发帖他们用的不是同一个benchmark版本?
--【捌】--:
请教下佬,这个图要怎么看的,为什么有些是中途才出现,那之前是100%?
--【玖】--:
难道不是因为这两个没有1m上下文么……这个比较参加不了
--【拾】--:
没有 GLM-5.1 和 K2.6 是因为这两家没有报告相关数据,还是有点可惜的
期待有第三方可以做一下这两个模型的数据
--【拾壹】--:
5.5 1M上下文不会出现5.4一样的复读机情况了嘛。那这样长对话情况1M上下文相比较于自动压缩是不是性能更好了。
--【拾贰】--:
谢谢佬友指教,不过看这个性能表现,opus4.7居然差4.6这么多。
而且这个图利好deepseek,国产之光了
--【拾叁】--:
opus4.6还是太权威了,GPT-5.5有原生1M上下文性能也正常了
--【拾肆】--: VrianCao:
主要是这俩家伙完全没报告上下文表现,哪怕是到256K的也行啊,完全没有
0-256K至少还是应该报告一下的,可惜并没有OvO
--【拾伍】--:
中途出现的就是厂商从这个区间开始报告的,如 Gemini 3.1 Pro 模型卡中只报告了 128K 和 1M 两个上下文窗口下的性能表现
具体可以看实心点,实心点是有报告的值

