看到有人给发给模型bug做测试能力,只有人家发的单反馈信息
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
用一个bug测了几个模型的能力:
- minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
- mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
- glm 5: 发现并解决问题,但只从表面上解决了。
- claude 4.6 opus: 发现并解决表面问题。发现深层问题,但是不知道怎么改,能提示用户手动修改;
- GPT 5.4 xhigh: 发现了用户都没想到的深层问题,一次改对。
- kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
- Genmini 3.10 pro: 同glm 5。(速度快,比其他快10倍)
- claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
- glm 5.1: 同claude 4.6 Sonnet。
- doubao-seed-2.0-code: 同kimi-2.5
- qwen3.6-plus preview free: 同glm 5
- stepfun/step-3.5-flash 同glm 5.1。
新增stepfun/step-3.5-flash:free
step这是什么模型,看着免费就测了下。发现隐含问题,改错了。出于好奇,提示了一下,改对了,实现和 gpt 5.4不同。
--【壹】--:
那就是 stepfun/step-3.5-flash:free 算免费中很好的咯
--【贰】--:
标题给我读力竭了
问题描述:
--【壹】--:
--【贰】--:
用一个bug测了几个模型的能力:
- minimax 2.7: 未发现问题。提示到具体代码行,仍然不承认有问题。
- mimo-v2-pro: 怀疑到具体行数,这个位置是对的,但最终判定不是bug。
- glm 5: 发现并解决问题,但只从表面上解决了。
- claude 4.6 opus: 发现并解决表面问题。发现深层问题,但是不知道怎么改,能提示用户手动修改;
- GPT 5.4 xhigh: 发现了用户都没想到的深层问题,一次改对。
- kimi-2.5:未发现问题。然后提示代码行号,态度转变发现并解决表面问题。同时发现深层问题,但改错了。(速度很慢,比GTP还慢)
- Genmini 3.10 pro: 同glm 5。(速度快,比其他快10倍)
- claude 4.6 Sonnet: 发现并解决表面问题。发现深层问题,但改错了。和kimi-2.5错的一样。
- glm 5.1: 同claude 4.6 Sonnet。
- doubao-seed-2.0-code: 同kimi-2.5
- qwen3.6-plus preview free: 同glm 5
- stepfun/step-3.5-flash 同glm 5.1。
新增stepfun/step-3.5-flash:free
step这是什么模型,看着免费就测了下。发现隐含问题,改错了。出于好奇,提示了一下,改对了,实现和 gpt 5.4不同。
--【壹】--:
那就是 stepfun/step-3.5-flash:free 算免费中很好的咯
--【贰】--:
标题给我读力竭了

