DeepSeek v4 在 Arena Leaderboard 排名出来了

2026-04-29 10:313阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

Text Arena

图片1889×898 73.9 KB

目前评分貌似不如 Qwen 3.5 Max，不过新模型后续排名变动应该会比较大，不排除会大幅上涨的可能性。

Code Arena

图片1924×959 78.8 KB

天气卡片实测：

DeepSeek v4 pro天气卡片测试来了，结果有点意外（新增GPT5.5对比）开发调优

[PixPin2026-04-2411-37-40] 跑了五分钟才生成完，可能现在并发高，有点慢提示词：你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个HTML文件（包含完整CSS和JavaScript）。实现横板天气页面，包含4个并排的动画天气卡片：晴天（太阳光线、动态光晕）大风（飘动云朵、摇…

网友解答：

--【壹】--：

这个排名真的准吗，5.4不如qwen3.6？

--【贰】--： Dave:

大幅上涨的可能性

难。。。感觉挺客观的这个排名和4.6s坐一桌也不丢人我说实话

--【叁】--：

毕竟当年是直接比肩 openai 顶级大模型的水准。加上最近 GLM，Kimi 还有 Qwen 和 MiMo 新出的大模型也不差。
Deepseek 憋了一年没有大更新，大家的预期阈值实在是太高了。

--【肆】--：

期待一波frontier math的评测

--【伍】--：

我觉得挺公正的，用了一下api写代码，不怎么，感觉和deepseek v3.2没啥提升

--【陆】--：

站内的讨论基本都更聚焦于 code 领域，而 qwen 的模型在编程方面只在自家的 IDE 和 cli 表现更好，站内人人用 claude code 讨论自然少。
就像 Muse spark 在各大榜单上也一直位于前列，站内也没什么人讨论一样。

--【柒】--：

我周末高强度使用来coding 看看，刚好是glm5切换过来，不过kilo code 有bug，对dsv4支持不好，老是报接口参数对不上。

--【捌】--：

他这个是用户众包盲测榜单。所以不说人话的模型评分会相对低一点，5.4 分低很正常。

--【玖】--：

qwen3.6-plus 在评分上那么优秀，为什么讨论辣么少？

--【拾】--：

感觉大家期待值都很高，就因为当初的R1惊艳吗。。

--【拾壹】--：

一问就是盲测，一用就是拉完了，这种榜单也就图一乐

--【拾贰】--：

这种榜单变化还是很大的，当年 Meta AI 的 llama4 还在榜单断层领先呢。不过一般都是新模型虚高的多。过几天就会趋于稳定。

--【拾叁】--：

第一主观感觉是略差一点儿，没有感受到对之前版本显著的提升

希望只是我用法不精造成的

--【拾肆】--：

说的非常对，我也是这样的感觉，但是这个东西不敢乱说，怕被喷，咱们就说自己测试的，不代表全体

--【拾伍】--：

实测下来感觉这次在模型能力上确实是有点拉了，目前看来距离 GLM 5.1 还有点差距，Qwen 3.6 应该也打不过

--【拾陆】--：

补一个 vals 的测试

vals.ai

Vals AI

Private, domain-specific benchmarks in legal, tax, and finance.

image1920×1755 379 KB

--【拾柒】--：

我觉得这样比是在拿别人的长处比别人短处，必定每个模型所擅长的工作是不一样的，所以会有出入，再等等看后续会咋样吧。

--【拾捌】--：

qwen不是一坨么，我试了下感觉不比qwen差，qwen这种就是纯刷分一点质量都没有那种

标签：人工智能

问题描述：

Text Arena

图片1889×898 73.9 KB

目前评分貌似不如 Qwen 3.5 Max，不过新模型后续排名变动应该会比较大，不排除会大幅上涨的可能性。

Code Arena

图片1924×959 78.8 KB

天气卡片实测：

DeepSeek v4 pro天气卡片测试来了，结果有点意外（新增GPT5.5对比）开发调优

[PixPin2026-04-2411-37-40] 跑了五分钟才生成完，可能现在并发高，有点慢提示词：你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个HTML文件（包含完整CSS和JavaScript）。实现横板天气页面，包含4个并排的动画天气卡片：晴天（太阳光线、动态光晕）大风（飘动云朵、摇…

网友解答：

--【壹】--：

这个排名真的准吗，5.4不如qwen3.6？

--【贰】--： Dave:

大幅上涨的可能性

难。。。感觉挺客观的这个排名和4.6s坐一桌也不丢人我说实话

--【叁】--：

--【肆】--：

期待一波frontier math的评测

--【伍】--：

我觉得挺公正的，用了一下api写代码，不怎么，感觉和deepseek v3.2没啥提升

--【陆】--：

--【柒】--：

我周末高强度使用来coding 看看，刚好是glm5切换过来，不过kilo code 有bug，对dsv4支持不好，老是报接口参数对不上。

--【捌】--：

他这个是用户众包盲测榜单。所以不说人话的模型评分会相对低一点，5.4 分低很正常。

--【玖】--：

qwen3.6-plus 在评分上那么优秀，为什么讨论辣么少？

--【拾】--：

感觉大家期待值都很高，就因为当初的R1惊艳吗。。

--【拾壹】--：

一问就是盲测，一用就是拉完了，这种榜单也就图一乐

--【拾贰】--：

这种榜单变化还是很大的，当年 Meta AI 的 llama4 还在榜单断层领先呢。不过一般都是新模型虚高的多。过几天就会趋于稳定。

--【拾叁】--：

第一主观感觉是略差一点儿，没有感受到对之前版本显著的提升

希望只是我用法不精造成的

--【拾肆】--：

说的非常对，我也是这样的感觉，但是这个东西不敢乱说，怕被喷，咱们就说自己测试的，不代表全体

--【拾伍】--：

实测下来感觉这次在模型能力上确实是有点拉了，目前看来距离 GLM 5.1 还有点差距，Qwen 3.6 应该也打不过

--【拾陆】--：

补一个 vals 的测试

vals.ai

Vals AI

Private, domain-specific benchmarks in legal, tax, and finance.

image1920×1755 379 KB

--【拾柒】--：

我觉得这样比是在拿别人的长处比别人短处，必定每个模型所擅长的工作是不一样的，所以会有出入，再等等看后续会咋样吧。

--【拾捌】--：

qwen不是一坨么，我试了下感觉不比qwen差，qwen这种就是纯刷分一点质量都没有那种

标签：人工智能

Text Arena

Code Arena

Vals AI

相关推荐

Text Arena

Code Arena

Vals AI

相关推荐