对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

2026-04-29 10:531阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image1174×716 59.3 KB
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了

swebench,openai有说a\有作弊的嫌疑
image597×108 3.2 KB

网友解答:
--【壹】--:

swebench,openai有说a\有作弊的嫌疑

这里是指 Anthropic 报告了模型有记忆的痕迹,既然是自己报告的,不应该算作弊,虽然我非常讨厌 A\,但是能汇报这一点非常重要,A\ 原文中还有排除记忆子集的结果(印象中性能并无下降)


--【贰】--:

好家伙,都开始说对方作弊了?

我直接好家伙

标签:人工智能
问题描述:

image1174×716 59.3 KB
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了

swebench,openai有说a\有作弊的嫌疑
image597×108 3.2 KB

网友解答:
--【壹】--:

swebench,openai有说a\有作弊的嫌疑

这里是指 Anthropic 报告了模型有记忆的痕迹,既然是自己报告的,不应该算作弊,虽然我非常讨厌 A\,但是能汇报这一点非常重要,A\ 原文中还有排除记忆子集的结果(印象中性能并无下降)


--【贰】--:

好家伙,都开始说对方作弊了?

我直接好家伙

标签:人工智能