Livebench.ai更新Deepseek V4 Pro&Flash成绩
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
livebench.ai
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
手机端刷到的,排版不方便截图见谅
省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking
LiveBench
网友解答:--【壹】--:
看起来deepseek数学和数据分析比较突出
--【贰】--:
没啥好说的
这榜单确实符合体验
希望后面好好打磨把
--【叁】--:
确实不稳定,但是如果开启MAX + V4 PRO + 1M上下文,效果略好,但是部分角色扮演提示词一定不要有,一定不要有,稍微加一点就变蠢了,我这种低全局提示词的反而发挥特别稳定(论坛有大佬发了文章,我让同事试了一下,的确如此)
--【肆】--:
我用来审论文、改论文,效果也很不错,聪明文笔不差
--【伍】--:
不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了
--【陆】--:
这个能力加上这个价格, 还有什么好说的,真香。
问题描述:
livebench.ai
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
手机端刷到的,排版不方便截图见谅
省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking
LiveBench
网友解答:--【壹】--:
看起来deepseek数学和数据分析比较突出
--【贰】--:
没啥好说的
这榜单确实符合体验
希望后面好好打磨把
--【叁】--:
确实不稳定,但是如果开启MAX + V4 PRO + 1M上下文,效果略好,但是部分角色扮演提示词一定不要有,一定不要有,稍微加一点就变蠢了,我这种低全局提示词的反而发挥特别稳定(论坛有大佬发了文章,我让同事试了一下,的确如此)
--【肆】--:
我用来审论文、改论文,效果也很不错,聪明文笔不差
--【伍】--:
不知道后续是否会推出dsv4-coding 版,这样就能有便宜的模型用了
--【陆】--:
这个能力加上这个价格, 还有什么好说的,真香。

