国外的 Vibe Code 测评排行:opus 4.7、gpt-5.5、deepseek V4、Kimi K2.6……等

2026-04-29 08:491阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:
  • 这个是 Vibe Code Beanch

bench661×1162 77.5 KB

  • 这个是 SWE-bench

swe-bench657×1155 77.8 KB

网友解答:
--【壹】--:

野榜,你可以看看,opus4.6 无思考排第5,opus 4.6thinking排第7,你的意思是不思考写出来的代码比思考后写出来的代码效果更好,这谁排的,有点搞笑了,不会是文科生媒体朋友吧


--【贰】--:

无思考的 opus 花费了更多美刀,可能实际工作上做了什么额外的事

感觉偶然性很高


--【叁】--:
huggingface.co

Arena Leaderboard - a Hugging Face Space by lmarena-ai

This app displays the LMArena leaderboard in a full‑screen view, letting you see the latest rankings of language models at a glance. Just open the page and the leaderboard loads automatically—no in...

不知道算不算?


--【肆】--:

我特别好奇,做这种榜单的人,真的自己开发吗?不会还是和科技评测媒体一样吧?不会科技硬要科技


--【伍】--:

拼接一下吧
vals.ai
benchmarks/swebench


--【陆】--:

看了这么多榜,还是直接用deepsee