deepseek-v4-pro Max思考下的缓存率稳定在95%,长上下文注意力也不错
- 内容介绍
- 文章标签
- 相关推荐
测了几个会话下来,发现ds v4 pro max的缓存率不断上升,从85%升到95%左右并稳定下来。
官Key显示 145.23人民币。
目前单轮对话最长已经到了500k,注意力正常,没有偏离主线。
图片1456×798 120 KB
图片1288×312 19.4 KB
网友解答:--【壹】--:
codex文风跟ds不同,不好评价。
ds4.6 pro max追不到opus 4.6开high,但能干一干sonnet。
便宜,1B Token按95%缓存算才一千多人民币,很便宜了。
比GLM-5.1快,快很多。200k以内GLM5.1=ds 4.6 promax, 200开外GLM淘汰。
--【贰】--:
我去,可以放整本的御用医宗金鉴吗?我期待了
--【叁】--:
大佬分享一下整体感受,对比claude opus 4.6和codex整体如何?
--【肆】--:
时间不等人,大模型迭代太快了。
说不定下半年moe这种模式都要淘汰了
--【伍】--:
想问问用过的佬,ds v4pro max幻觉率怎么样,ds模型最大的问题就是幻觉很多,以前只敢拿来处理一下文字和简单工作
--【陆】--:
本来就是量化的呀,至少开源版本是量化了的,不知道官方部署的量化了没有,我估计也是量化了的
而且量化的还挺激进,1.6T的参数量化到只有800多G大小(正常应该是3T+)
image1059×531 44.1 KB
--【柒】--:
等其他人先用高价 token 填充缓存,然后我们就可以享受低价的token了
--【捌】--:
500k 注意力正常这个指标有点太模糊了,是指没有偏离主线,还是长程信息检索依然能力在线?
--【玖】--:
哦,明白了,那说明长任务下能力保持的还不错,你可以试试这样,会话开始时,比如 50k 左右时说一些信息,500k 左右再提到这些信息,看看模型还能不能记住。
--【拾】--:
官API这种形式还是用不起
等等看第三方会不会跟进部署出Coding Plan
--【拾壹】--:
权重本身就是 FP4+FP8 mixed, 说明 部署与评测就是基于 这个FP4+FP8 mixed的。
--【拾贰】--:
v4本来就是FP4量化,很难再量化下去吧,再量化就没法用了
--【拾叁】--:
image2232×1224 179 KB
52e568b04f124c7b3cdfb05b8393a6771920×956 129 KB
弄了个天气卡片都 5 毛,不敢测了没有 plan
--【拾肆】--:
我认为pro会被量化,1.6t参数量太大了,需要算力更多
--【拾伍】--:
cache key是你请求的,你怎么等?
--【拾陆】--:
等等吧,价格屠夫也不是白叫的,等他上菊花的卡,如果没降价就拉跨了
--【拾柒】--:
等下年950算力卡下方降价 估计价格会便宜一半以上
--【拾捌】--:
意思是,我在进行安卓APK分析时,分析过程中没有偏离主线任务,最终生成详细得分析报告,没有遗漏重要信息。
--【拾玖】--:
那这么说 其实v4 promax性价比还可以
测了几个会话下来,发现ds v4 pro max的缓存率不断上升,从85%升到95%左右并稳定下来。
官Key显示 145.23人民币。
目前单轮对话最长已经到了500k,注意力正常,没有偏离主线。
图片1456×798 120 KB
图片1288×312 19.4 KB
网友解答:--【壹】--:
codex文风跟ds不同,不好评价。
ds4.6 pro max追不到opus 4.6开high,但能干一干sonnet。
便宜,1B Token按95%缓存算才一千多人民币,很便宜了。
比GLM-5.1快,快很多。200k以内GLM5.1=ds 4.6 promax, 200开外GLM淘汰。
--【贰】--:
我去,可以放整本的御用医宗金鉴吗?我期待了
--【叁】--:
大佬分享一下整体感受,对比claude opus 4.6和codex整体如何?
--【肆】--:
时间不等人,大模型迭代太快了。
说不定下半年moe这种模式都要淘汰了
--【伍】--:
想问问用过的佬,ds v4pro max幻觉率怎么样,ds模型最大的问题就是幻觉很多,以前只敢拿来处理一下文字和简单工作
--【陆】--:
本来就是量化的呀,至少开源版本是量化了的,不知道官方部署的量化了没有,我估计也是量化了的
而且量化的还挺激进,1.6T的参数量化到只有800多G大小(正常应该是3T+)
image1059×531 44.1 KB
--【柒】--:
等其他人先用高价 token 填充缓存,然后我们就可以享受低价的token了
--【捌】--:
500k 注意力正常这个指标有点太模糊了,是指没有偏离主线,还是长程信息检索依然能力在线?
--【玖】--:
哦,明白了,那说明长任务下能力保持的还不错,你可以试试这样,会话开始时,比如 50k 左右时说一些信息,500k 左右再提到这些信息,看看模型还能不能记住。
--【拾】--:
官API这种形式还是用不起
等等看第三方会不会跟进部署出Coding Plan
--【拾壹】--:
权重本身就是 FP4+FP8 mixed, 说明 部署与评测就是基于 这个FP4+FP8 mixed的。
--【拾贰】--:
v4本来就是FP4量化,很难再量化下去吧,再量化就没法用了
--【拾叁】--:
image2232×1224 179 KB
52e568b04f124c7b3cdfb05b8393a6771920×956 129 KB
弄了个天气卡片都 5 毛,不敢测了没有 plan
--【拾肆】--:
我认为pro会被量化,1.6t参数量太大了,需要算力更多
--【拾伍】--:
cache key是你请求的,你怎么等?
--【拾陆】--:
等等吧,价格屠夫也不是白叫的,等他上菊花的卡,如果没降价就拉跨了
--【拾柒】--:
等下年950算力卡下方降价 估计价格会便宜一半以上
--【拾捌】--:
意思是,我在进行安卓APK分析时,分析过程中没有偏离主线任务,最终生成详细得分析报告,没有遗漏重要信息。
--【拾玖】--:
那这么说 其实v4 promax性价比还可以

