DeepSeek V4的LiveBench分数出来了
- 内容介绍
- 文章标签
- 相关推荐
1996×905 49.8 KB
1981×800 51.7 KB
LiveBench
网友解答:--【壹】--:
gemini3.1这么强的吗,难道是前端方面的
--【贰】--:
不如opencode-go的调用次数限制更符合生产实测,数据来的又慢又偏颇
--【叁】--:
目前 DeepSeek V4 还是预览版,期待后续能进一步提升
--【肆】--:
编码能力5.2codex最强啊,这合理吗
--【伍】--:
主要还是因为缺数据吧!网页版用户大多都是用来聊天的,模型太长时间不更新,API用户也少了。所以现在降价,估计是要收集优质数据,在后续版本中提升Coding能力
--【陆】--:
成绩很客观,Coding差一些,分数也体现出来了,综合实力还是挺强的
--【柒】--:
这榜单是用什么标准排的,coding里分数最高的是gpt 5.2 codex
--【捌】--:
这个榜单的Coding分数确实很抽象啊,claude-4-sonnet甚至能排在claude-4-6-opus前面
image686×814 29.3 KB
--【玖】--:
就coding分数差一些,但是这么多测评,分数确实就像之前有个媒体报道的,开源第一
--【拾】--:
这榜单里V4 coding还没自己3.2强吗,另外怎么没看到5.1在哪
1996×905 49.8 KB
1981×800 51.7 KB
LiveBench
网友解答:--【壹】--:
gemini3.1这么强的吗,难道是前端方面的
--【贰】--:
不如opencode-go的调用次数限制更符合生产实测,数据来的又慢又偏颇
--【叁】--:
目前 DeepSeek V4 还是预览版,期待后续能进一步提升
--【肆】--:
编码能力5.2codex最强啊,这合理吗
--【伍】--:
主要还是因为缺数据吧!网页版用户大多都是用来聊天的,模型太长时间不更新,API用户也少了。所以现在降价,估计是要收集优质数据,在后续版本中提升Coding能力
--【陆】--:
成绩很客观,Coding差一些,分数也体现出来了,综合实力还是挺强的
--【柒】--:
这榜单是用什么标准排的,coding里分数最高的是gpt 5.2 codex
--【捌】--:
这个榜单的Coding分数确实很抽象啊,claude-4-sonnet甚至能排在claude-4-6-opus前面
image686×814 29.3 KB
--【玖】--:
就coding分数差一些,但是这么多测评,分数确实就像之前有个媒体报道的,开源第一
--【拾】--:
这榜单里V4 coding还没自己3.2强吗,另外怎么没看到5.1在哪

