deepseek-v4-pro Max思考下的缓存率稳定在95%,长上下文注意力也不错

2026-04-29 10:072阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

测了几个会话下来,发现ds v4 pro max的缓存率不断上升,从85%升到95%左右并稳定下来。

官Key显示 145.23人民币。

目前单轮对话最长已经到了500k,注意力正常,没有偏离主线。

图片1456×798 120 KB

图片1288×312 19.4 KB

网友解答:
--【壹】--:

codex文风跟ds不同,不好评价。

ds4.6 pro max追不到opus 4.6开high,但能干一干sonnet。

便宜,1B Token按95%缓存算才一千多人民币,很便宜了。

比GLM-5.1快,快很多。200k以内GLM5.1=ds 4.6 promax, 200开外GLM淘汰。


--【贰】--:

我去,可以放整本的御用医宗金鉴吗?我期待了


--【叁】--:

大佬分享一下整体感受,对比claude opus 4.6和codex整体如何?


--【肆】--:

时间不等人,大模型迭代太快了。

说不定下半年moe这种模式都要淘汰了


--【伍】--:

想问问用过的佬,ds v4pro max幻觉率怎么样,ds模型最大的问题就是幻觉很多,以前只敢拿来处理一下文字和简单工作


--【陆】--:

本来就是量化的呀,至少开源版本是量化了的,不知道官方部署的量化了没有,我估计也是量化了的


而且量化的还挺激进,1.6T的参数量化到只有800多G大小(正常应该是3T+)

image1059×531 44.1 KB


--【柒】--:

等其他人先用高价 token 填充缓存,然后我们就可以享受低价的token了


--【捌】--:

500k 注意力正常这个指标有点太模糊了,是指没有偏离主线,还是长程信息检索依然能力在线?


--【玖】--:

哦,明白了,那说明长任务下能力保持的还不错,你可以试试这样,会话开始时,比如 50k 左右时说一些信息,500k 左右再提到这些信息,看看模型还能不能记住。


--【拾】--:

官API这种形式还是用不起
等等看第三方会不会跟进部署出Coding Plan


--【拾壹】--:

权重本身就是 FP4+FP8 mixed, 说明 部署与评测就是基于 这个FP4+FP8 mixed的。


--【拾贰】--:

v4本来就是FP4量化,很难再量化下去吧,再量化就没法用了


--【拾叁】--:

image2232×1224 179 KB

52e568b04f124c7b3cdfb05b8393a6771920×956 129 KB

弄了个天气卡片都 5 毛,不敢测了没有 plan


--【拾肆】--:

我认为pro会被量化,1.6t参数量太大了,需要算力更多


--【拾伍】--:

cache key是你请求的,你怎么等?


--【拾陆】--:

等等吧,价格屠夫也不是白叫的,等他上菊花的卡,如果没降价就拉跨了


--【拾柒】--:

等下年950算力卡下方降价 估计价格会便宜一半以上


--【拾捌】--:

意思是,我在进行安卓APK分析时,分析过程中没有偏离主线任务,最终生成详细得分析报告,没有遗漏重要信息。


--【拾玖】--:

那这么说 其实v4 promax性价比还可以

标签:人工智能
问题描述:

测了几个会话下来,发现ds v4 pro max的缓存率不断上升,从85%升到95%左右并稳定下来。

官Key显示 145.23人民币。

目前单轮对话最长已经到了500k,注意力正常,没有偏离主线。

图片1456×798 120 KB

图片1288×312 19.4 KB

网友解答:
--【壹】--:

codex文风跟ds不同,不好评价。

ds4.6 pro max追不到opus 4.6开high,但能干一干sonnet。

便宜,1B Token按95%缓存算才一千多人民币,很便宜了。

比GLM-5.1快,快很多。200k以内GLM5.1=ds 4.6 promax, 200开外GLM淘汰。


--【贰】--:

我去,可以放整本的御用医宗金鉴吗?我期待了


--【叁】--:

大佬分享一下整体感受,对比claude opus 4.6和codex整体如何?


--【肆】--:

时间不等人,大模型迭代太快了。

说不定下半年moe这种模式都要淘汰了


--【伍】--:

想问问用过的佬,ds v4pro max幻觉率怎么样,ds模型最大的问题就是幻觉很多,以前只敢拿来处理一下文字和简单工作


--【陆】--:

本来就是量化的呀,至少开源版本是量化了的,不知道官方部署的量化了没有,我估计也是量化了的


而且量化的还挺激进,1.6T的参数量化到只有800多G大小(正常应该是3T+)

image1059×531 44.1 KB


--【柒】--:

等其他人先用高价 token 填充缓存,然后我们就可以享受低价的token了


--【捌】--:

500k 注意力正常这个指标有点太模糊了,是指没有偏离主线,还是长程信息检索依然能力在线?


--【玖】--:

哦,明白了,那说明长任务下能力保持的还不错,你可以试试这样,会话开始时,比如 50k 左右时说一些信息,500k 左右再提到这些信息,看看模型还能不能记住。


--【拾】--:

官API这种形式还是用不起
等等看第三方会不会跟进部署出Coding Plan


--【拾壹】--:

权重本身就是 FP4+FP8 mixed, 说明 部署与评测就是基于 这个FP4+FP8 mixed的。


--【拾贰】--:

v4本来就是FP4量化,很难再量化下去吧,再量化就没法用了


--【拾叁】--:

image2232×1224 179 KB

52e568b04f124c7b3cdfb05b8393a6771920×956 129 KB

弄了个天气卡片都 5 毛,不敢测了没有 plan


--【拾肆】--:

我认为pro会被量化,1.6t参数量太大了,需要算力更多


--【拾伍】--:

cache key是你请求的,你怎么等?


--【拾陆】--:

等等吧,价格屠夫也不是白叫的,等他上菊花的卡,如果没降价就拉跨了


--【拾柒】--:

等下年950算力卡下方降价 估计价格会便宜一半以上


--【拾捌】--:

意思是,我在进行安卓APK分析时,分析过程中没有偏离主线任务,最终生成详细得分析报告,没有遗漏重要信息。


--【拾玖】--:

那这么说 其实v4 promax性价比还可以

标签:人工智能