国外的 Vibe Code 测评排行:opus 4.7、gpt-5.5、deepseek V4、Kimi K2.6……等
- 内容介绍
- 文章标签
- 相关推荐
- 这个是 Vibe Code Beanch
bench661×1162 77.5 KB
- 这个是 SWE-bench
swe-bench657×1155 77.8 KB
网友解答:--【壹】--:
野榜,你可以看看,opus4.6 无思考排第5,opus 4.6thinking排第7,你的意思是不思考写出来的代码比思考后写出来的代码效果更好,这谁排的,有点搞笑了,不会是文科生媒体朋友吧
--【贰】--:
无思考的 opus 花费了更多美刀,可能实际工作上做了什么额外的事
感觉偶然性很高
--【叁】--:
Arena Leaderboard - a Hugging Face Space by lmarena-ai
This app displays the LMArena leaderboard in a full‑screen view, letting you see the latest rankings of language models at a glance. Just open the page and the leaderboard loads automatically—no in...
不知道算不算?
--【肆】--:
我特别好奇,做这种榜单的人,真的自己开发吗?不会还是和科技评测媒体一样吧?不会科技硬要科技
--【伍】--:
拼接一下吧
vals.ai
benchmarks/swebench
--【陆】--:
看了这么多榜,还是直接用deepseek吧,架构搭好,还是靠谱的性价比之选
--【柒】--:
各位,这个是Vals.ai的榜单,人家是专业做测评的
这是这个Benchmark的Paper:
Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development
Code generation has emerged as one of AI's highest-impact use cases, yet existing benchmarks measure isolated tasks rather than the complete "zero-to-one" process of building a working application from scratch. We introduce Vibe Code Bench, a...
以及这是一个私有测试集
我不对榜单发表看法,但我认为大家至少要先了解再下定论吧
--【捌】--:
有评测排行的链接吗? 发出来让我看一下, 我挺感兴趣
--【玖】--:
这俩任务都是公开的数据集吧 不应该和官方差距那么大 被锤了会很难看
--【拾】--:
我感觉任何的榜单都不靠谱,毕竟每个人的使用场景不一样,即使是vibe coding每个模型的长处也不同。
--【拾壹】--:
我觉得用脚投票可以排一排(openrouter调用量),其它基本都是体感差距。就像写文搞oc的喜欢用Grok,ds和Gemini,这个很难评价。
--【拾贰】--:
openai说了 现在的榜单毫无作用了!gpt最强。
--【拾叁】--:
demo测试,毫无意义,要在真实的大型项目中使用过才知道谁好
--【拾肆】--:
什么阿猫阿狗都要搞个测评,这种一眼假的,不知道做出来是给哪些人看得
--【拾伍】--:
就看open router token调用量
- 这个是 Vibe Code Beanch
bench661×1162 77.5 KB
- 这个是 SWE-bench
swe-bench657×1155 77.8 KB
网友解答:--【壹】--:
野榜,你可以看看,opus4.6 无思考排第5,opus 4.6thinking排第7,你的意思是不思考写出来的代码比思考后写出来的代码效果更好,这谁排的,有点搞笑了,不会是文科生媒体朋友吧
--【贰】--:
无思考的 opus 花费了更多美刀,可能实际工作上做了什么额外的事
感觉偶然性很高
--【叁】--:
Arena Leaderboard - a Hugging Face Space by lmarena-ai
This app displays the LMArena leaderboard in a full‑screen view, letting you see the latest rankings of language models at a glance. Just open the page and the leaderboard loads automatically—no in...
不知道算不算?
--【肆】--:
我特别好奇,做这种榜单的人,真的自己开发吗?不会还是和科技评测媒体一样吧?不会科技硬要科技
--【伍】--:
拼接一下吧
vals.ai
benchmarks/swebench
--【陆】--:
看了这么多榜,还是直接用deepseek吧,架构搭好,还是靠谱的性价比之选
--【柒】--:
各位,这个是Vals.ai的榜单,人家是专业做测评的
这是这个Benchmark的Paper:
Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development
Code generation has emerged as one of AI's highest-impact use cases, yet existing benchmarks measure isolated tasks rather than the complete "zero-to-one" process of building a working application from scratch. We introduce Vibe Code Bench, a...
以及这是一个私有测试集
我不对榜单发表看法,但我认为大家至少要先了解再下定论吧
--【捌】--:
有评测排行的链接吗? 发出来让我看一下, 我挺感兴趣
--【玖】--:
这俩任务都是公开的数据集吧 不应该和官方差距那么大 被锤了会很难看
--【拾】--:
我感觉任何的榜单都不靠谱,毕竟每个人的使用场景不一样,即使是vibe coding每个模型的长处也不同。
--【拾壹】--:
我觉得用脚投票可以排一排(openrouter调用量),其它基本都是体感差距。就像写文搞oc的喜欢用Grok,ds和Gemini,这个很难评价。
--【拾贰】--:
openai说了 现在的榜单毫无作用了!gpt最强。
--【拾叁】--:
demo测试,毫无意义,要在真实的大型项目中使用过才知道谁好
--【拾肆】--:
什么阿猫阿狗都要搞个测评,这种一眼假的,不知道做出来是给哪些人看得
--【拾伍】--:
就看open router token调用量

