国外的 Vibe Code 测评排行：opus 4.7、gpt-5.5、deepseek V4、Kimi K2.6……等

2026-04-29 08:492阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

这个是 Vibe Code Beanch

bench661×1162 77.5 KB

这个是 SWE-bench

swe-bench657×1155 77.8 KB

网友解答：

--【壹】--：

野榜，你可以看看，opus4.6 无思考排第5，opus 4.6thinking排第7，你的意思是不思考写出来的代码比思考后写出来的代码效果更好，这谁排的，有点搞笑了，不会是文科生媒体朋友吧

--【贰】--：

无思考的 opus 花费了更多美刀，可能实际工作上做了什么额外的事

感觉偶然性很高

--【叁】--：

huggingface.co

Arena Leaderboard - a Hugging Face Space by lmarena-ai

This app displays the LMArena leaderboard in a full‑screen view, letting you see the latest rankings of language models at a glance. Just open the page and the leaderboard loads automatically—no in...

不知道算不算？

--【肆】--：

我特别好奇，做这种榜单的人，真的自己开发吗？不会还是和科技评测媒体一样吧？不会科技硬要科技

--【伍】--：

拼接一下吧
vals.ai
benchmarks/swebench

--【陆】--：

看了这么多榜，还是直接用deepseek吧，架构搭好，还是靠谱的性价比之选

--【柒】--：

各位，这个是Vals.ai的榜单，人家是专业做测评的

这是这个Benchmark的Paper：

arXiv.org

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Code generation has emerged as one of AI's highest-impact use cases, yet existing benchmarks measure isolated tasks rather than the complete "zero-to-one" process of building a working application from scratch. We introduce Vibe Code Bench, a...

以及这是一个私有测试集

我不对榜单发表看法，但我认为大家至少要先了解再下定论吧

--【捌】--：

有评测排行的链接吗? 发出来让我看一下, 我挺感兴趣

--【玖】--：

这俩任务都是公开的数据集吧不应该和官方差距那么大被锤了会很难看

--【拾】--：

我感觉任何的榜单都不靠谱，毕竟每个人的使用场景不一样，即使是vibe coding每个模型的长处也不同。

--【拾壹】--：

我觉得用脚投票可以排一排（openrouter调用量），其它基本都是体感差距。就像写文搞oc的喜欢用Grok，ds和Gemini，这个很难评价。

--【拾贰】--：

openai说了现在的榜单毫无作用了！gpt最强。

--【拾叁】--：

demo测试，毫无意义，要在真实的大型项目中使用过才知道谁好

--【拾肆】--：

什么阿猫阿狗都要搞个测评，这种一眼假的，不知道做出来是给哪些人看得

--【拾伍】--：

就看open router token调用量

标签：人工智能软件开发

问题描述：

这个是 Vibe Code Beanch

bench661×1162 77.5 KB

这个是 SWE-bench

swe-bench657×1155 77.8 KB

网友解答：

--【壹】--：

--【贰】--：

无思考的 opus 花费了更多美刀，可能实际工作上做了什么额外的事

感觉偶然性很高

--【叁】--：

huggingface.co

Arena Leaderboard - a Hugging Face Space by lmarena-ai

不知道算不算？

--【肆】--：

我特别好奇，做这种榜单的人，真的自己开发吗？不会还是和科技评测媒体一样吧？不会科技硬要科技

--【伍】--：

拼接一下吧
vals.ai
benchmarks/swebench

--【陆】--：

看了这么多榜，还是直接用deepseek吧，架构搭好，还是靠谱的性价比之选

--【柒】--：

各位，这个是Vals.ai的榜单，人家是专业做测评的

这是这个Benchmark的Paper：

arXiv.org

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

以及这是一个私有测试集

我不对榜单发表看法，但我认为大家至少要先了解再下定论吧

--【捌】--：

有评测排行的链接吗? 发出来让我看一下, 我挺感兴趣

--【玖】--：

这俩任务都是公开的数据集吧不应该和官方差距那么大被锤了会很难看

--【拾】--：

我感觉任何的榜单都不靠谱，毕竟每个人的使用场景不一样，即使是vibe coding每个模型的长处也不同。

--【拾壹】--：

我觉得用脚投票可以排一排（openrouter调用量），其它基本都是体感差距。就像写文搞oc的喜欢用Grok，ds和Gemini，这个很难评价。

--【拾贰】--：

openai说了现在的榜单毫无作用了！gpt最强。

--【拾叁】--：

demo测试，毫无意义，要在真实的大型项目中使用过才知道谁好

--【拾肆】--：

什么阿猫阿狗都要搞个测评，这种一眼假的，不知道做出来是给哪些人看得

--【拾伍】--：

就看open router token调用量

标签：人工智能软件开发

Arena Leaderboard - a Hugging Face Space by lmarena-ai

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

相关推荐

Arena Leaderboard - a Hugging Face Space by lmarena-ai

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

相关推荐