Nao佬的Deepseek V4 评测出来了 国模第一!

2026-04-29 09:203阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image2694×1897 486 KB

flash版本也很能打

llm2014.github.io

LLM Benchmark Dashboard


二更, 补充一下, Nao佬编程榜上也是国模第一, 这个中午就评测出来了, 所以没提.
编程榜上比的是完成同样任务的扣分数, 总扣分越小越好
不过网上大家的测试效果看起来, Deepseek V4 和 Claude Code 配合的还不是很好, 调工具不够积极
image2494×1838 378 KB

网友解答:
--【壹】--:

deepseek的flash模式,好像看起来也不是那么块


--【贰】--:

我晚上也用CC测试了下,max模式下能力确实强一些,但是思考时间也变得很久,token消耗一下子就上来了,不过最终的结果还算不错,期待ollama cloud上coding plan


--【叁】--:

看Token的消耗量来说,也没有很夸张. 也许可能是算力问题


--【肆】--:

我看了下这个平均耗时是不是跟替它家的模型耗得时间有点多了?


--【伍】--:

Max确实是很不错的,网页版应该不是Max的。


--【陆】--:

最厉害的还是v4 flash的性价比 1块钱2块钱的价格 我将跪下舔ds的脚
flash将是低复杂度高消耗量任务的神


--【柒】--:

耗时是真的,下午跑一个校对任务,比其他模型慢很多很多


--【捌】--:

只有我看到了kimi差不太多反而更便宜吗


--【玖】--:

可能是token速度问题 算力问题罢了 不用台担心


--【拾】--:

这样看不论平均耗时!也还是很可以的! .


--【拾壹】--:

很强,虽迟但到,就是这个耗时太长了,算力造成的吧,希望后面国产算力起来了能有改善。


--【拾贰】--:

DeepSeek V4 Flash的个位数价格在榜单上好扎眼啊


--【拾叁】--:

中位数差距比较大,实际使用时体感上还是差一些的


--【拾肆】--:

flash很强了,这样很多任务可以想办法让flash去做


--【拾伍】--:

哈哈哈,我看到了v4 pro平均耗时一骑绝尘


--【拾陆】--:

deepseek思考的多,上下文又长,对特定任务的完成确实不错,不过缺点就是耗时长了


--【拾柒】--:

你去看看他的测试的项目,就感觉不怎么靠谱了,算了吧,还是看artificial analysis


--【拾捌】--:

才注意到榜里还有这个数据,kimi的体验确实很不稳定,尤其是上下文长了之后,希望kimi k2.7可以着重解决这方面的问题,不然忽上忽下的跟过山车似的也不是个事啊


--【拾玖】--:
deepseek.spinsnow.fun

DeepSeek API 性能监控

速度还行