Nao佬的Deepseek V4 评测出来了 国模第一!
- 内容介绍
- 文章标签
- 相关推荐
image2694×1897 486 KB
flash版本也很能打
LLM Benchmark Dashboard
二更, 补充一下, Nao佬编程榜上也是国模第一, 这个中午就评测出来了, 所以没提.
编程榜上比的是完成同样任务的扣分数, 总扣分越小越好
不过网上大家的测试效果看起来, Deepseek V4 和 Claude Code 配合的还不是很好, 调工具不够积极
image2494×1838 378 KB
--【壹】--:
deepseek的flash模式,好像看起来也不是那么块
--【贰】--:
我晚上也用CC测试了下,max模式下能力确实强一些,但是思考时间也变得很久,token消耗一下子就上来了,不过最终的结果还算不错,期待ollama cloud上coding plan
--【叁】--:
看Token的消耗量来说,也没有很夸张. 也许可能是算力问题
--【肆】--:
我看了下这个平均耗时是不是跟替它家的模型耗得时间有点多了?
--【伍】--:
Max确实是很不错的,网页版应该不是Max的。
--【陆】--:
最厉害的还是v4 flash的性价比 1块钱2块钱的价格 我将跪下舔ds的脚
flash将是低复杂度高消耗量任务的神
--【柒】--:
耗时是真的,下午跑一个校对任务,比其他模型慢很多很多
--【捌】--:
只有我看到了kimi差不太多反而更便宜吗
--【玖】--:
可能是token速度问题 算力问题罢了 不用台担心
--【拾】--:
这样看不论平均耗时!也还是很可以的! .
--【拾壹】--:
很强,虽迟但到,就是这个耗时太长了,算力造成的吧,希望后面国产算力起来了能有改善。
--【拾贰】--:
DeepSeek V4 Flash的个位数价格在榜单上好扎眼啊
--【拾叁】--:
中位数差距比较大,实际使用时体感上还是差一些的
--【拾肆】--:
flash很强了,这样很多任务可以想办法让flash去做
--【拾伍】--:
哈哈哈,我看到了v4 pro平均耗时一骑绝尘
--【拾陆】--:
deepseek思考的多,上下文又长,对特定任务的完成确实不错,不过缺点就是耗时长了
--【拾柒】--:
你去看看他的测试的项目,就感觉不怎么靠谱了,算了吧,还是看artificial analysis
--【拾捌】--:
才注意到榜里还有这个数据,kimi的体验确实很不稳定,尤其是上下文长了之后,希望kimi k2.7可以着重解决这方面的问题,不然忽上忽下的跟过山车似的也不是个事啊
--【拾玖】--:
DeepSeek API 性能监控
速度还行
image2694×1897 486 KB
flash版本也很能打
LLM Benchmark Dashboard
二更, 补充一下, Nao佬编程榜上也是国模第一, 这个中午就评测出来了, 所以没提.
编程榜上比的是完成同样任务的扣分数, 总扣分越小越好
不过网上大家的测试效果看起来, Deepseek V4 和 Claude Code 配合的还不是很好, 调工具不够积极
image2494×1838 378 KB
--【壹】--:
deepseek的flash模式,好像看起来也不是那么块
--【贰】--:
我晚上也用CC测试了下,max模式下能力确实强一些,但是思考时间也变得很久,token消耗一下子就上来了,不过最终的结果还算不错,期待ollama cloud上coding plan
--【叁】--:
看Token的消耗量来说,也没有很夸张. 也许可能是算力问题
--【肆】--:
我看了下这个平均耗时是不是跟替它家的模型耗得时间有点多了?
--【伍】--:
Max确实是很不错的,网页版应该不是Max的。
--【陆】--:
最厉害的还是v4 flash的性价比 1块钱2块钱的价格 我将跪下舔ds的脚
flash将是低复杂度高消耗量任务的神
--【柒】--:
耗时是真的,下午跑一个校对任务,比其他模型慢很多很多
--【捌】--:
只有我看到了kimi差不太多反而更便宜吗
--【玖】--:
可能是token速度问题 算力问题罢了 不用台担心
--【拾】--:
这样看不论平均耗时!也还是很可以的! .
--【拾壹】--:
很强,虽迟但到,就是这个耗时太长了,算力造成的吧,希望后面国产算力起来了能有改善。
--【拾贰】--:
DeepSeek V4 Flash的个位数价格在榜单上好扎眼啊
--【拾叁】--:
中位数差距比较大,实际使用时体感上还是差一些的
--【拾肆】--:
flash很强了,这样很多任务可以想办法让flash去做
--【拾伍】--:
哈哈哈,我看到了v4 pro平均耗时一骑绝尘
--【拾陆】--:
deepseek思考的多,上下文又长,对特定任务的完成确实不错,不过缺点就是耗时长了
--【拾柒】--:
你去看看他的测试的项目,就感觉不怎么靠谱了,算了吧,还是看artificial analysis
--【拾捌】--:
才注意到榜里还有这个数据,kimi的体验确实很不稳定,尤其是上下文长了之后,希望kimi k2.7可以着重解决这方面的问题,不然忽上忽下的跟过山车似的也不是个事啊
--【拾玖】--:
DeepSeek API 性能监控
速度还行

