对比一下claude mythos和gpt 5.5目前已经有的官方测试跑分对比

2026-04-29 10:531阅读0评论SEO教程

问题描述：

image1174×716 59.3 KB
有差距，但是考虑到定价，感觉差距一般般
甚至Terminal-Bench 2.0 mythos被反超了

swebench，openai有说a\有作弊的嫌疑
image597×108 3.2 KB

网友解答：

--【壹】--：

swebench，openai有说a\有作弊的嫌疑

这里是指 Anthropic 报告了模型有记忆的痕迹，既然是自己报告的，不应该算作弊，虽然我非常讨厌 A\，但是能汇报这一点非常重要，A\ 原文中还有排除记忆子集的结果（印象中性能并无下降）

--【贰】--：

好家伙，都开始说对方作弊了？

我直接好家伙