对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
image1174×716 59.3 KB
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了
swebench,openai有说a\有作弊的嫌疑
image597×108 3.2 KB
--【壹】--:
swebench,openai有说a\有作弊的嫌疑
这里是指 Anthropic 报告了模型有记忆的痕迹,既然是自己报告的,不应该算作弊,虽然我非常讨厌 A\,但是能汇报这一点非常重要,A\ 原文中还有排除记忆子集的结果(印象中性能并无下降)
--【贰】--:
好家伙,都开始说对方作弊了?
我直接好家伙
问题描述:
--【壹】--:
--【贰】--:
image1174×716 59.3 KB
有差距,但是考虑到定价,感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了
swebench,openai有说a\有作弊的嫌疑
image597×108 3.2 KB
--【壹】--:
swebench,openai有说a\有作弊的嫌疑
这里是指 Anthropic 报告了模型有记忆的痕迹,既然是自己报告的,不应该算作弊,虽然我非常讨厌 A\,但是能汇报这一点非常重要,A\ 原文中还有排除记忆子集的结果(印象中性能并无下降)
--【贰】--:
好家伙,都开始说对方作弊了?
我直接好家伙

