看到有人给发给模型bug做测试能力,只有人家发的单反馈信息

2026-04-11 13:120阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

用一个bug测了几个模型的能力:

  1. minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
  2. mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
  3. glm 5: 发现并解决问题,但只从表面上解决了。
  4. claude 4.6 opus: 发现并解决表面问题。发现深层问题,但是不知道怎么改,能提示用户手动修改;
  5. GPT 5.4 xhigh: 发现了用户都没想到的深层问题,一次改对。
  6. kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
  7. Genmini 3.10 pro: 同glm 5。(速度快,比其他快10倍)
  8. claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
  9. glm 5.1: 同claude 4.6 Sonnet。
  10. doubao-seed-2.0-code: 同kimi-2.5
  11. qwen3.6-plus preview free: 同glm 5
  12. stepfun/step-3.5-flash 同glm 5.1。

新增stepfun/step-3.5-flash:free
step这是什么模型,看着免费就测了下。发现隐含问题,改错了。出于好奇,提示了一下,改对了,实现和 gpt 5.4不同。

网友解答:
--【壹】--:

那就是 stepfun/step-3.5-flash:free 算免费中很好的咯


--【贰】--:

标题给我读力竭了

标签:纯水
问题描述:

用一个bug测了几个模型的能力:

  1. minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
  2. mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
  3. glm 5: 发现并解决问题,但只从表面上解决了。
  4. claude 4.6 opus: 发现并解决表面问题。发现深层问题,但是不知道怎么改,能提示用户手动修改;
  5. GPT 5.4 xhigh: 发现了用户都没想到的深层问题,一次改对。
  6. kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
  7. Genmini 3.10 pro: 同glm 5。(速度快,比其他快10倍)
  8. claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
  9. glm 5.1: 同claude 4.6 Sonnet。
  10. doubao-seed-2.0-code: 同kimi-2.5
  11. qwen3.6-plus preview free: 同glm 5
  12. stepfun/step-3.5-flash 同glm 5.1。

新增stepfun/step-3.5-flash:free
step这是什么模型,看着免费就测了下。发现隐含问题,改错了。出于好奇,提示了一下,改对了,实现和 gpt 5.4不同。

网友解答:
--【壹】--:

那就是 stepfun/step-3.5-flash:free 算免费中很好的咯


--【贰】--:

标题给我读力竭了

标签:纯水