Nao佬的Deepseek V4 评测出来了 国模第一!
- 内容介绍
- 文章标签
- 相关推荐
image2694×1897 486 KB
flash版本也很能打
LLM Benchmark Dashboard
二更, 补充一下, Nao佬编程榜上也是国模第一, 这个中午就评测出来了, 所以没提.
编程榜上比的是完成同样任务的扣分数, 总扣分越小越好
不过网上大家的测试效果看起来, Deepseek V4 和 Claude Code 配合的还不是很好, 调工具不够积极
image2494×1838 378 KB
--【壹】--:
deepseek的flash模式,好像看起来也不是那么块
--【贰】--:
我晚上也用CC测试了下,max模式下能力确实强一些,但是思考时间也变得很久,token消耗一下子就上来了,不过最终的结果还算不错,期待ollama cloud上coding plan
--【叁】--:
看Token的消耗量来说,也没有很夸张. 也许可能是算力问题
--【肆】--:
我看了下这个平均耗时是不是跟替它家的模型耗得时间有点多了?
--【伍】--:
Max确实是很不错的,网页版应该不是Max的。
image2694×1897 486 KB
flash版本也很能打
LLM Benchmark Dashboard
二更, 补充一下, Nao佬编程榜上也是国模第一, 这个中午就评测出来了, 所以没提.
编程榜上比的是完成同样任务的扣分数, 总扣分越小越好
不过网上大家的测试效果看起来, Deepseek V4 和 Claude Code 配合的还不是很好, 调工具不够积极
image2494×1838 378 KB
--【壹】--:
deepseek的flash模式,好像看起来也不是那么块
--【贰】--:
我晚上也用CC测试了下,max模式下能力确实强一些,但是思考时间也变得很久,token消耗一下子就上来了,不过最终的结果还算不错,期待ollama cloud上coding plan
--【叁】--:
看Token的消耗量来说,也没有很夸张. 也许可能是算力问题
--【肆】--:
我看了下这个平均耗时是不是跟替它家的模型耗得时间有点多了?
--【伍】--:
Max确实是很不错的,网页版应该不是Max的。

