DeepSeek v4 在 Arena Leaderboard 排名出来了
- 内容介绍
- 文章标签
- 相关推荐
Text Arena
图片1889×898 73.9 KB
目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。
Code Arena
图片1924×959 78.8 KB
天气卡片实测:
DeepSeek v4 pro天气卡片测试来了,结果有点意外(新增GPT5.5对比) 开发调优[PixPin2026-04-2411-37-40] 跑了五分钟才生成完,可能现在并发高,有点慢 提示词: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘动云朵、摇…网友解答:
--【壹】--:
这个排名真的准吗,5.4不如qwen3.6?
--【贰】--: Dave:
大幅上涨的可能性
难。。。感觉挺客观的这个排名 和4.6s坐一桌也不丢人我说实话
--【叁】--:
毕竟当年是直接比肩 openai 顶级大模型的水准。加上最近 GLM,Kimi 还有 Qwen 和 MiMo 新出的大模型也不差。
Deepseek 憋了一年没有大更新,大家的预期阈值实在是太高了。
--【肆】--:
期待一波frontier math的评测
--【伍】--:
我觉得挺公正的,用了一下api写代码,不怎么,感觉和deepseek v3.2没啥提升
--【陆】--:
站内的讨论基本都更聚焦于 code 领域,而 qwen 的模型在编程方面只在自家的 IDE 和 cli 表现更好,站内人人用 claude code 讨论自然少。
就像 Muse spark 在各大榜单上也一直位于前列,站内也没什么人讨论一样。
--【柒】--:
我周末高强度使用来coding 看看,刚好是glm5切换过来,不过kilo code 有bug,对dsv4支持不好,老是报接口参数对不上。
--【捌】--:
他这个是用户众包盲测榜单。所以不说人话的模型评分会相对低一点,5.4 分低很正常。
--【玖】--:
qwen3.6-plus 在评分上那么优秀,为什么讨论辣么少?
--【拾】--:
感觉大家期待值都很高,就因为当初的R1惊艳吗。。
--【拾壹】--:
一问就是盲测,一用就是拉完了,这种榜单也就图一乐
--【拾贰】--:
这种榜单变化还是很大的,当年 Meta AI 的 llama4 还在榜单断层领先呢。不过一般都是新模型虚高的多。过几天就会趋于稳定。
--【拾叁】--:
第一主观感觉是略差一点儿,没有感受到对之前版本显著的提升
希望只是我用法不精造成的
--【拾肆】--:
说的非常对,我也是这样的感觉,但是这个东西不敢乱说,怕被喷,咱们就说自己测试的,不代表全体
--【拾伍】--:
实测下来感觉这次在模型能力上确实是有点拉了,目前看来距离 GLM 5.1 还有点差距,Qwen 3.6 应该也打不过
--【拾陆】--:
补一个 vals 的测试
Vals AI
Private, domain-specific benchmarks in legal, tax, and finance.
image1920×1755 379 KB
--【拾柒】--:
我觉得这样比是在拿别人的长处比别人短处,必定每个模型所擅长的工作是不一样的,所以会有出入,再等等看后续会咋样吧。
--【拾捌】--:
qwen不是一坨么,我试了下感觉不比qwen差,qwen这种就是纯刷分一点质量都没有那种
Text Arena
图片1889×898 73.9 KB
目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。
Code Arena
图片1924×959 78.8 KB
天气卡片实测:
DeepSeek v4 pro天气卡片测试来了,结果有点意外(新增GPT5.5对比) 开发调优[PixPin2026-04-2411-37-40] 跑了五分钟才生成完,可能现在并发高,有点慢 提示词: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘动云朵、摇…网友解答:
--【壹】--:
这个排名真的准吗,5.4不如qwen3.6?
--【贰】--: Dave:
大幅上涨的可能性
难。。。感觉挺客观的这个排名 和4.6s坐一桌也不丢人我说实话
--【叁】--:
毕竟当年是直接比肩 openai 顶级大模型的水准。加上最近 GLM,Kimi 还有 Qwen 和 MiMo 新出的大模型也不差。
Deepseek 憋了一年没有大更新,大家的预期阈值实在是太高了。
--【肆】--:
期待一波frontier math的评测
--【伍】--:
我觉得挺公正的,用了一下api写代码,不怎么,感觉和deepseek v3.2没啥提升
--【陆】--:
站内的讨论基本都更聚焦于 code 领域,而 qwen 的模型在编程方面只在自家的 IDE 和 cli 表现更好,站内人人用 claude code 讨论自然少。
就像 Muse spark 在各大榜单上也一直位于前列,站内也没什么人讨论一样。
--【柒】--:
我周末高强度使用来coding 看看,刚好是glm5切换过来,不过kilo code 有bug,对dsv4支持不好,老是报接口参数对不上。
--【捌】--:
他这个是用户众包盲测榜单。所以不说人话的模型评分会相对低一点,5.4 分低很正常。
--【玖】--:
qwen3.6-plus 在评分上那么优秀,为什么讨论辣么少?
--【拾】--:
感觉大家期待值都很高,就因为当初的R1惊艳吗。。
--【拾壹】--:
一问就是盲测,一用就是拉完了,这种榜单也就图一乐
--【拾贰】--:
这种榜单变化还是很大的,当年 Meta AI 的 llama4 还在榜单断层领先呢。不过一般都是新模型虚高的多。过几天就会趋于稳定。
--【拾叁】--:
第一主观感觉是略差一点儿,没有感受到对之前版本显著的提升
希望只是我用法不精造成的
--【拾肆】--:
说的非常对,我也是这样的感觉,但是这个东西不敢乱说,怕被喷,咱们就说自己测试的,不代表全体
--【拾伍】--:
实测下来感觉这次在模型能力上确实是有点拉了,目前看来距离 GLM 5.1 还有点差距,Qwen 3.6 应该也打不过
--【拾陆】--:
补一个 vals 的测试
Vals AI
Private, domain-specific benchmarks in legal, tax, and finance.
image1920×1755 379 KB
--【拾柒】--:
我觉得这样比是在拿别人的长处比别人短处,必定每个模型所擅长的工作是不一样的,所以会有出入,再等等看后续会咋样吧。
--【拾捌】--:
qwen不是一坨么,我试了下感觉不比qwen差,qwen这种就是纯刷分一点质量都没有那种

