GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

2026-04-29 10:351阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？

Kimi-K2.6技术报告截图如下：
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下：
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答：

--【壹】--：

但这个波动似乎也太大了，一个是所有模型中最高的，一个是最低的

--【贰】--：

确实有点奇怪，这些技术报告是厂家自己去测的吗？还是说有官方数据？

--【叁】--：

但是两个图里claude和gemini的分数又是相同的怎么解释？

--【肆】--：

terminal-bench@2.0 排行榜的分数，GPT5.4是 81.8%± 2.0 ，比这俩都高啊。

标签：ChatGpt 人工智能

问题描述：

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？

Kimi-K2.6技术报告截图如下：
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下：
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答：

--【壹】--：

但这个波动似乎也太大了，一个是所有模型中最高的，一个是最低的

--【贰】--：

确实有点奇怪，这些技术报告是厂家自己去测的吗？还是说有官方数据？

--【叁】--：

但是两个图里claude和gemini的分数又是相同的怎么解释？

--【肆】--：

terminal-bench@2.0 排行榜的分数，GPT5.4是 81.8%± 2.0 ，比这俩都高啊。

标签：ChatGpt 人工智能