Livebench.ai更新Deepseek V4 Pro&Flash成绩
- 内容介绍
- 文章标签
- 相关推荐
手机端刷到的,排版不方便截图见谅
省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking
LiveBench
网友解答:--【壹】--:
看起来deepseek数学和数据分析比较突出
--【贰】--:
没啥好说的
这榜单确实符合体验
希望后面好好打磨把
--【叁】--:
确实不稳定,但是如果开启MAX + V4 PRO + 1M上下文,效果略好,但是部分角色扮演提示词一定不要有,一定不要有,稍微加一点就变蠢了,我这种低全局提示词的反而发挥特别稳定(论坛有大佬发了文章,我让同事试了一下,的确如此)
--【肆】--:
我用来审论文、改论文,效果也很不错,聪明文笔不差
--【伍】--:
不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了
--【陆】--:
这个能力加上这个价格, 还有什么好说的,真香。
--【柒】--:
补一张图,省流一下:
image1996×905 49.8 KB
国模对比
image1981×800 51.7 KB
--【捌】--:
这么一看隔壁Arena纯野榜,我主观觉得LiveBench这个是最相对来说最符合实际编程体验的
GPT5.4和5.5在很多问题上确实会比Opus好很多(主要是心细)
--【玖】--:
这个更贴合实际体验一些,包括coding能力有待加强这方面。不过语言单项分比不过GPT5.3 codex还是比较迷,是稳稳接住更富有文学气息吗?
--【拾】--:
看来我需要把你是Linus从系统提示词中去掉了
--【拾壹】--:
佬,这篇文章可以稍作指路吗,想去拜读一下
刚看到下面的回复,谢谢佬,好像和我昨天看到那个一样
--【拾贰】--:
整体表现作为开源模型确实可以了,不过看子项,coding还是明显偏弱了,结合最近L站看到的,更倾向于不稳定,有的时候表现好,有时候拉,从而拉低了分数
--【拾叁】--:
我大概明白了为什么Deepseek v4 有时候不遵循指令 - 搞七捻三 - LINUX DO
--【拾肆】--:
这个分数很可以了,再加上长上下文和召回率,大有可为。就是希望价格可以再降一些,如果恢复原价,不太用得起
--【拾伍】--:
Arena 没有客观测评,纯用户主观打分。更谄媚的态度有利于获得更高的分数
--【拾陆】--:
666居然还有这种操作,收藏了,以后玩酒馆的时候试试
--【拾柒】--:
对比3.2提升也不少,新底模有了,后续继续改进还能继续提升
--【拾捌】--:
整体榜单我感觉符合真实coding体验,但是kimi是真的不敢苟同,和GLM5.1差的实在是太多了了,同样的任务,GLM5.1完成度很高,但是kimi是真的不能看
minimax2.7的coding只有59,哈哈哈哈,比2.5还差,2.5没用过,但确实比kimi还要差是真的,毕竟模型大小摆在这
deepseek4pro为啥不针对性提高coding呢,我感觉这个智商在这,针对coding训练下,大有可为啊
--【拾玖】--:
佬方便发一下你说的论坛里这篇文章的链接嘛?我也去看看
手机端刷到的,排版不方便截图见谅
省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking
LiveBench
网友解答:--【壹】--:
看起来deepseek数学和数据分析比较突出
--【贰】--:
没啥好说的
这榜单确实符合体验
希望后面好好打磨把
--【叁】--:
确实不稳定,但是如果开启MAX + V4 PRO + 1M上下文,效果略好,但是部分角色扮演提示词一定不要有,一定不要有,稍微加一点就变蠢了,我这种低全局提示词的反而发挥特别稳定(论坛有大佬发了文章,我让同事试了一下,的确如此)
--【肆】--:
我用来审论文、改论文,效果也很不错,聪明文笔不差
--【伍】--:
不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了
--【陆】--:
这个能力加上这个价格, 还有什么好说的,真香。
--【柒】--:
补一张图,省流一下:
image1996×905 49.8 KB
国模对比
image1981×800 51.7 KB
--【捌】--:
这么一看隔壁Arena纯野榜,我主观觉得LiveBench这个是最相对来说最符合实际编程体验的
GPT5.4和5.5在很多问题上确实会比Opus好很多(主要是心细)
--【玖】--:
这个更贴合实际体验一些,包括coding能力有待加强这方面。不过语言单项分比不过GPT5.3 codex还是比较迷,是稳稳接住更富有文学气息吗?
--【拾】--:
看来我需要把你是Linus从系统提示词中去掉了
--【拾壹】--:
佬,这篇文章可以稍作指路吗,想去拜读一下
刚看到下面的回复,谢谢佬,好像和我昨天看到那个一样
--【拾贰】--:
整体表现作为开源模型确实可以了,不过看子项,coding还是明显偏弱了,结合最近L站看到的,更倾向于不稳定,有的时候表现好,有时候拉,从而拉低了分数
--【拾叁】--:
我大概明白了为什么Deepseek v4 有时候不遵循指令 - 搞七捻三 - LINUX DO
--【拾肆】--:
这个分数很可以了,再加上长上下文和召回率,大有可为。就是希望价格可以再降一些,如果恢复原价,不太用得起
--【拾伍】--:
Arena 没有客观测评,纯用户主观打分。更谄媚的态度有利于获得更高的分数
--【拾陆】--:
666居然还有这种操作,收藏了,以后玩酒馆的时候试试
--【拾柒】--:
对比3.2提升也不少,新底模有了,后续继续改进还能继续提升
--【拾捌】--:
整体榜单我感觉符合真实coding体验,但是kimi是真的不敢苟同,和GLM5.1差的实在是太多了了,同样的任务,GLM5.1完成度很高,但是kimi是真的不能看
minimax2.7的coding只有59,哈哈哈哈,比2.5还差,2.5没用过,但确实比kimi还要差是真的,毕竟模型大小摆在这
deepseek4pro为啥不针对性提高coding呢,我感觉这个智商在这,针对coding训练下,大有可为啊
--【拾玖】--:
佬方便发一下你说的论坛里这篇文章的链接嘛?我也去看看

