Livebench.ai更新Deepseek V4 Pro&Flash成绩

2026-04-29 08:372阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

手机端刷到的，排版不方便截图见谅
省流：Deepseek V4 Pro 总分73.58，大致相当于GPT 5.3 Codex High，Deepseek V4 Flash 67.25分，大致相当于Claude 4.5 Sonnet Thinking

livebench.ai

LiveBench

网友解答：

--【壹】--：

看起来deepseek数学和数据分析比较突出

--【贰】--：

没啥好说的
这榜单确实符合体验
希望后面好好打磨把

--【叁】--：

确实不稳定，但是如果开启MAX + V4 PRO + 1M上下文，效果略好，但是部分角色扮演提示词一定不要有，一定不要有，稍微加一点就变蠢了，我这种低全局提示词的反而发挥特别稳定（论坛有大佬发了文章，我让同事试了一下，的确如此）

--【肆】--：

我用来审论文、改论文，效果也很不错，聪明文笔不差

--【伍】--：

不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了

--【陆】--：

这个能力加上这个价格, 还有什么好说的，真香。

--【柒】--：

补一张图，省流一下：
image1996×905 49.8 KB
国模对比
image1981×800 51.7 KB

--【捌】--：

这么一看隔壁Arena纯野榜，我主观觉得LiveBench这个是最相对来说最符合实际编程体验的
GPT5.4和5.5在很多问题上确实会比Opus好很多（主要是心细）

--【玖】--：

这个更贴合实际体验一些，包括coding能力有待加强这方面。不过语言单项分比不过GPT5.3 codex还是比较迷，是稳稳接住更富有文学气息吗？

--【拾】--：

看来我需要把你是Linus从系统提示词中去掉了

--【拾壹】--：

~~佬，这篇文章可以稍作指路吗，想去拜读一下~~

刚看到下面的回复，谢谢佬，好像和我昨天看到那个一样

--【拾贰】--：

整体表现作为开源模型确实可以了，不过看子项，coding还是明显偏弱了，结合最近L站看到的，更倾向于不稳定，有的时候表现好，有时候拉，从而拉低了分数

--【拾叁】--：

我大概明白了为什么Deepseek v4 有时候不遵循指令 - 搞七捻三 - LINUX DO

--【拾肆】--：

这个分数很可以了，再加上长上下文和召回率，大有可为。就是希望价格可以再降一些，如果恢复原价，不太用得起

--【拾伍】--：

Arena 没有客观测评，纯用户主观打分。更谄媚的态度有利于获得更高的分数

--【拾陆】--：

666居然还有这种操作，收藏了，以后玩酒馆的时候试试

--【拾柒】--：

对比3.2提升也不少，新底模有了，后续继续改进还能继续提升

--【拾捌】--：

整体榜单我感觉符合真实coding体验，但是kimi是真的不敢苟同，和GLM5.1差的实在是太多了了，同样的任务，GLM5.1完成度很高，但是kimi是真的不能看

minimax2.7的coding只有59，哈哈哈哈，比2.5还差，2.5没用过，但确实比kimi还要差是真的，毕竟模型大小摆在这

deepseek4pro为啥不针对性提高coding呢，我感觉这个智商在这，针对coding训练下，大有可为啊

--【拾玖】--：

佬方便发一下你说的论坛里这篇文章的链接嘛？我也去看看

标签：人工智能

问题描述：

手机端刷到的，排版不方便截图见谅
省流：Deepseek V4 Pro 总分73.58，大致相当于GPT 5.3 Codex High，Deepseek V4 Flash 67.25分，大致相当于Claude 4.5 Sonnet Thinking

livebench.ai

LiveBench

网友解答：

--【壹】--：

看起来deepseek数学和数据分析比较突出

--【贰】--：

没啥好说的
这榜单确实符合体验
希望后面好好打磨把

--【叁】--：

--【肆】--：

我用来审论文、改论文，效果也很不错，聪明文笔不差

--【伍】--：

不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了

--【陆】--：

这个能力加上这个价格, 还有什么好说的，真香。

--【柒】--：

补一张图，省流一下：
image1996×905 49.8 KB
国模对比
image1981×800 51.7 KB

--【捌】--：

这么一看隔壁Arena纯野榜，我主观觉得LiveBench这个是最相对来说最符合实际编程体验的
GPT5.4和5.5在很多问题上确实会比Opus好很多（主要是心细）

--【玖】--：

这个更贴合实际体验一些，包括coding能力有待加强这方面。不过语言单项分比不过GPT5.3 codex还是比较迷，是稳稳接住更富有文学气息吗？

--【拾】--：

看来我需要把你是Linus从系统提示词中去掉了

--【拾壹】--：

~~佬，这篇文章可以稍作指路吗，想去拜读一下~~

刚看到下面的回复，谢谢佬，好像和我昨天看到那个一样

--【拾贰】--：

--【拾叁】--：

我大概明白了为什么Deepseek v4 有时候不遵循指令 - 搞七捻三 - LINUX DO

--【拾肆】--：

这个分数很可以了，再加上长上下文和召回率，大有可为。就是希望价格可以再降一些，如果恢复原价，不太用得起

--【拾伍】--：

Arena 没有客观测评，纯用户主观打分。更谄媚的态度有利于获得更高的分数

--【拾陆】--：

666居然还有这种操作，收藏了，以后玩酒馆的时候试试

--【拾柒】--：

对比3.2提升也不少，新底模有了，后续继续改进还能继续提升

--【拾捌】--：

整体榜单我感觉符合真实coding体验，但是kimi是真的不敢苟同，和GLM5.1差的实在是太多了了，同样的任务，GLM5.1完成度很高，但是kimi是真的不能看

minimax2.7的coding只有59，哈哈哈哈，比2.5还差，2.5没用过，但确实比kimi还要差是真的，毕竟模型大小摆在这

deepseek4pro为啥不针对性提高coding呢，我感觉这个智商在这，针对coding训练下，大有可为啊

--【拾玖】--：

佬方便发一下你说的论坛里这篇文章的链接嘛？我也去看看

标签：人工智能

LiveBench

相关推荐

LiveBench

相关推荐