国内外大模型编程能力排名,claude占领前五,qwen第八,小米 mimo第十三

2026-04-11 11:461阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

数据源自:Code AI Leaderboard - Best AI Models for Coding ,对这排名佬友们怎么看?

image1944×1418 272 KB

网友解答:
--【壹】--:

image380×279 27.3 KB


--【贰】--:

不像野榜


--【叁】--: LaoDa9527:

除了前端,gpt就是屎中屎啊

我认为你想表达的意思是gpt只有前端是好的,其他方面表现差劲


--【肆】--:

类似于gemini 3.1 的customtools版本,为工具等优化的吧


--【伍】--:

什么叫做 codex-harness ?有没有佬友解释一下


--【陆】--:

咱们正常使用codex能用到这个模型吗?


--【柒】--:

我自从用来codex 我就感觉gpt 比 claude强 ,不知道为什么,在vibe coding方面,gpt 考虑很周全


--【捌】--:

佬是不是说反了,gpt 明显是前端最拉


--【玖】--:

我是说gpt 前端就是屎啊,不如国产


--【拾】--:

除了前端,gpt就是屎中屎啊


--【拾壹】--:

编程领域基本还是独一档


--【拾贰】--:

claude比较全能,gpt 前端就是屎,连国产都不如,就是考虑周到,符合我的口味


--【拾叁】--:

gpt前端也不如claude啊


--【拾肆】--:

我个人体感还是Claude优于GPT


--【拾伍】--:

个人使用感觉来说,感觉5.4在不超过512k上下文的时候已经和opus4.6差不多了,5.4那个1m上下文,感觉大了,它就经常忘记上下文,不过我感觉5.4找bug能力有时候比4.6还强


--【拾陆】--:

就是公益站里我们用的


--【拾柒】--:

哈基米能在这个榜单这么高名次,这真的是认真的吗?


--【拾捌】--:

a​是真的出生,也确实有实力


--【拾玖】--:

在codex cli这个驾驶舱里面使用这个模型的体验比较好的意思,如果把gpt 5.4反代到claude code用,效果可能没那么好

问题描述:

数据源自:Code AI Leaderboard - Best AI Models for Coding ,对这排名佬友们怎么看?

image1944×1418 272 KB

网友解答:
--【壹】--:

image380×279 27.3 KB


--【贰】--:

不像野榜


--【叁】--: LaoDa9527:

除了前端,gpt就是屎中屎啊

我认为你想表达的意思是gpt只有前端是好的,其他方面表现差劲


--【肆】--:

类似于gemini 3.1 的customtools版本,为工具等优化的吧


--【伍】--:

什么叫做 codex-harness ?有没有佬友解释一下


--【陆】--:

咱们正常使用codex能用到这个模型吗?


--【柒】--:

我自从用来codex 我就感觉gpt 比 claude强 ,不知道为什么,在vibe coding方面,gpt 考虑很周全


--【捌】--:

佬是不是说反了,gpt 明显是前端最拉


--【玖】--:

我是说gpt 前端就是屎啊,不如国产


--【拾】--:

除了前端,gpt就是屎中屎啊


--【拾壹】--:

编程领域基本还是独一档


--【拾贰】--:

claude比较全能,gpt 前端就是屎,连国产都不如,就是考虑周到,符合我的口味


--【拾叁】--:

gpt前端也不如claude啊


--【拾肆】--:

我个人体感还是Claude优于GPT


--【拾伍】--:

个人使用感觉来说,感觉5.4在不超过512k上下文的时候已经和opus4.6差不多了,5.4那个1m上下文,感觉大了,它就经常忘记上下文,不过我感觉5.4找bug能力有时候比4.6还强


--【拾陆】--:

就是公益站里我们用的


--【拾柒】--:

哈基米能在这个榜单这么高名次,这真的是认真的吗?


--【拾捌】--:

a​是真的出生,也确实有实力


--【拾玖】--:

在codex cli这个驾驶舱里面使用这个模型的体验比较好的意思,如果把gpt 5.4反代到claude code用,效果可能没那么好