GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

2026-04-29 10:351阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗?

Kimi-K2.6技术报告截图如下:
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下:
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答:
--【壹】--:

但这个波动似乎也太大了,一个是所有模型中最高的,一个是最低的


--【贰】--:

确实有点奇怪,这些技术报告是厂家自己去测的吗?还是说有官方数据?


--【叁】--:

但是两个图里claude和gemini的分数又是相同的怎么解释?


--【肆】--:

terminal-bench@2.0 排行榜的分数,GPT5.4是 81.8%± 2.0 ,比这俩都高啊。

阅读全文
问题描述:

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗?

Kimi-K2.6技术报告截图如下:
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下:
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答:
--【壹】--:

但这个波动似乎也太大了,一个是所有模型中最高的,一个是最低的


--【贰】--:

确实有点奇怪,这些技术报告是厂家自己去测的吗?还是说有官方数据?


--【叁】--:

但是两个图里claude和gemini的分数又是相同的怎么解释?


--【肆】--:

terminal-bench@2.0 排行榜的分数,GPT5.4是 81.8%± 2.0 ,比这俩都高啊。

阅读全文