DeepSeek v4 在 Arena Leaderboard 排名出来了

2026-04-29 10:313阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

Text Arena

图片1889×898 73.9 KB

目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。

Code Arena

图片1924×959 78.8 KB

天气卡片实测:

DeepSeek v4 pro天气卡片测试来了,结果有点意外(新增GPT5.5对比) 开发调优
[PixPin2026-04-2411-37-40] 跑了五分钟才生成完,可能现在并发高,有点慢 提示词: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘动云朵、摇…
网友解答:
--【壹】--:

这个排名真的准吗,5.4不如qwen3.6?


--【贰】--: Dave:

大幅上涨的可能性

难。。。感觉挺客观的这个排名 和4.6s坐一桌也不丢人我说实话


--【叁】--:

毕竟当年是直接比肩 openai 顶级大模型的水准。加上最近 GLM,Kimi 还有 Qwen 和 MiMo 新出的大模型也不差。
Deepseek 憋了一年没有大更新,大家的预期阈值实在是太高了。


--【肆】--:

期待一波frontier math的评测


--【伍】--:

我觉得挺公正的,用了一下api写代码,不怎么,感觉和deepseek v3.2没啥提升


--【陆】--:

站内的讨论基本都更聚焦于 code 领域,而 qwen 的模型在编程方面只在自家的 IDE 和 cli 表现更好,站内人人用 claude code 讨论自然少。
就像 Muse spark 在各大榜单上也一直位于前列,站内也没什么人讨论一样。


--【柒】--:

我周末高强度使用来coding 看看,刚好是glm5切换过来,不过kilo code 有bug,对dsv4支持不好,老是报接口参数对不上。


--【捌】--:

他这个是用户众包盲测榜单。所以不说人话的模型评分会相对低一点,5.4 分低很正常。


--【玖】--:

qwen3.6-plus 在评分上那么优秀,为什么讨论辣么少?


--【拾】--:

感觉大家期待值都很高,就因为当初的R1惊艳吗。。


--【拾壹】--:

一问就是盲测,一用就是拉完了,这种榜单也就图一乐


--【拾贰】--:

这种榜单变化还是很大的,当年 Meta AI 的 llama4 还在榜单断层领先呢。不过一般都是新模型虚高的多。过几天就会趋于稳定。


--【拾叁】--:

第一主观感觉是略差一点儿,没有感受到对之前版本显著的提升

希望只是我用法不精造成的


--【拾肆】--:

说的非常对,我也是这样的感觉,但是这个东西不敢乱说,怕被喷,咱们就说自己测试的,不代表全体


--【拾伍】--:

实测下来感觉这次在模型能力上确实是有点拉了,目前看来距离 GLM 5.1 还有点差距,Qwen 3.6 应该也打不过


--【拾陆】--:

补一个 vals 的测试

vals.ai

Vals AI

Private, domain-specific benchmarks in legal, tax, and finance.

image1920×1755 379 KB


--【拾柒】--:

我觉得这样比是在拿别人的长处比别人短处,必定每个模型所擅长的工作是不一样的,所以会有出入,再等等看后续会咋样吧。


--【拾捌】--:

qwen不是一坨么,我试了下感觉不比qwen差,qwen这种就是纯刷分一点质量都没有那种