GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

2026-04-29 10:352阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

在Kimi-K2.6技术报告中和DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？

Kimi-K2.6技术报告截图如下：
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下：
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答：

--【壹】--：

但这个波动似乎也太大了，一个是所有模型中最高的，一个是最低的

--【贰】--：

确实有点奇怪，这些技术报告是厂家自己去测的吗？还是说有官方数据？

--【叁】--：

但是两个图里claude和gemini的分数又是相同的怎么解释？

--【肆】--：

terminal-bench@2.0 排行榜的分数，GPT5.4是 81.8%± 2.0 ，比这俩都高啊。

Terminal-Bench

A benchmark for terminal agents

倒是更像 5.3-codex 的分数：

Terminal-Bench

A benchmark for terminal agents

从5.3的分数可以看出来用的Agent不一样，差别也挺大的

--【伍】--：

条件完全相同的评测都会有波动。何况各家使用的评测细节都没有完全公开。

标签：ChatGpt 人工智能

问题描述：

Kimi-K2.6技术报告截图如下：
截屏2026-04-24 11.55.122376×1614 334 KB

DeepSeek-v4技术报告截图如下：
截屏2026-04-24 11.55.221512×1036 125 KB

网友解答：

--【壹】--：

但这个波动似乎也太大了，一个是所有模型中最高的，一个是最低的

--【贰】--：

确实有点奇怪，这些技术报告是厂家自己去测的吗？还是说有官方数据？

--【叁】--：

但是两个图里claude和gemini的分数又是相同的怎么解释？

--【肆】--：

terminal-bench@2.0 排行榜的分数，GPT5.4是 81.8%± 2.0 ，比这俩都高啊。

Terminal-Bench

A benchmark for terminal agents

倒是更像 5.3-codex 的分数：

Terminal-Bench

A benchmark for terminal agents

从5.3的分数可以看出来用的Agent不一样，差别也挺大的

--【伍】--：

条件完全相同的评测都会有波动。何况各家使用的评测细节都没有完全公开。

标签：ChatGpt 人工智能

Terminal-Bench

Terminal-Bench

相关推荐

Terminal-Bench

Terminal-Bench

相关推荐