Livebench.ai更新Deepseek V4 Pro&Flash成绩

2026-04-29 08:372阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

手机端刷到的,排版不方便截图见谅
省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking

livebench.ai

LiveBench

网友解答:
--【壹】--:

看起来deepseek数学和数据分析比较突出


--【贰】--:

没啥好说的
这榜单确实符合体验
希望后面好好打磨把


--【叁】--:

确实不稳定,但是如果开启MAX + V4 PRO + 1M上下文,效果略好,但是部分角色扮演提示词一定不要有,一定不要有,稍微加一点就变蠢了,我这种低全局提示词的反而发挥特别稳定(论坛有大佬发了文章,我让同事试了一下,的确如此)


--【肆】--:

我用来审论文、改论文,效果也很不错,聪明文笔不差


--【伍】--:

不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了


--【陆】--:

这个能力加上这个价格, 还有什么好说的,真香。


--【柒】--:

补一张图,省流一下:
image1996×905 49.8 KB
国模对比
image1981×800 51.7 KB


--【捌】--:

这么一看隔壁Arena纯野榜,我主观觉得LiveBench这个是最相对来说最符合实际编程体验的
GPT5.4和5.5在很多问题上确实会比Opus好很多(主要是心细)


--【玖】--:

这个更贴合实际体验一些,包括coding能力有待加强这方面。不过语言单项分比不过GPT5.3 codex还是比较迷,是稳稳接住更富有文学气息吗?


--【拾】--:

看来我需要把你是Linus从系统提示词中去掉了


--【拾壹】--:

佬,这篇文章可以稍作指路吗,想去拜读一下

刚看到下面的回复,谢谢佬,好像和我昨天看到那个一样


--【拾贰】--:

整体表现作为开源模型确实可以了,不过看子项,coding还是明显偏弱了,结合最近L站看到的,更倾向于不稳定,有的时候表现好,有时候拉,从而拉低了分数


--【拾叁】--:

我大概明白了为什么Deepseek v4 有时候不遵循指令 - 搞七捻三 - LINUX DO


--【拾肆】--:

这个分数很可以了,再加上长上下文和召回率,大有可为。就是希望价格可以再降一些,如果恢复原价,不太用得起


--【拾伍】--:

Arena 没有客观测评,纯用户主观打分。更谄媚的态度有利于获得更高的分数


--【拾陆】--:

666居然还有这种操作,收藏了,以后玩酒馆的时候试试


--【拾柒】--:

对比3.2提升也不少,新底模有了,后续继续改进还能继续提升


--【拾捌】--:

整体榜单我感觉符合真实coding体验,但是kimi是真的不敢苟同,和GLM5.1差的实在是太多了了,同样的任务,GLM5.1完成度很高,但是kimi是真的不能看

minimax2.7的coding只有59,哈哈哈哈,比2.5还差,2.5没用过,但确实比kimi还要差是真的,毕竟模型大小摆在这

deepseek4pro为啥不针对性提高coding呢,我感觉这个智商在这,针对coding训练下,大有可为啊


--【拾玖】--:

佬方便发一下你说的论坛里这篇文章的链接嘛?我也去看看