GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同
- 内容介绍
- 文章标签
- 相关推荐
在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗?
Kimi-K2.6技术报告截图如下:
截屏2026-04-24 11.55.122376×1614 334 KB
DeepSeek-v4技术报告截图如下:
截屏2026-04-24 11.55.221512×1036 125 KB
--【壹】--:
但这个波动似乎也太大了,一个是所有模型中最高的,一个是最低的
--【贰】--:
确实有点奇怪,这些技术报告是厂家自己去测的吗?还是说有官方数据?
--【叁】--:
但是两个图里claude和gemini的分数又是相同的怎么解释?
--【肆】--:
terminal-bench@2.0 排行榜的分数,GPT5.4是 81.8%± 2.0 ,比这俩都高啊。
Terminal-Bench
A benchmark for terminal agents
倒是更像 5.3-codex 的分数:
Terminal-Bench
A benchmark for terminal agents
从5.3的分数可以看出来用的Agent不一样,差别也挺大的
--【伍】--:
条件完全相同的评测都会有波动。何况各家使用的评测细节都没有完全公开。
在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗?
Kimi-K2.6技术报告截图如下:
截屏2026-04-24 11.55.122376×1614 334 KB
DeepSeek-v4技术报告截图如下:
截屏2026-04-24 11.55.221512×1036 125 KB
--【壹】--:
但这个波动似乎也太大了,一个是所有模型中最高的,一个是最低的
--【贰】--:
确实有点奇怪,这些技术报告是厂家自己去测的吗?还是说有官方数据?
--【叁】--:
但是两个图里claude和gemini的分数又是相同的怎么解释?
--【肆】--:
terminal-bench@2.0 排行榜的分数,GPT5.4是 81.8%± 2.0 ,比这俩都高啊。
Terminal-Bench
A benchmark for terminal agents
倒是更像 5.3-codex 的分数:
Terminal-Bench
A benchmark for terminal agents
从5.3的分数可以看出来用的Agent不一样,差别也挺大的
--【伍】--:
条件完全相同的评测都会有波动。何况各家使用的评测细节都没有完全公开。

