deepseek-v4-pro Max思考下的缓存率稳定在95%，长上下文注意力也不错

2026-04-29 10:072阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

测了几个会话下来，发现ds v4 pro max的缓存率不断上升，从85%升到95%左右并稳定下来。

官Key显示 145.23人民币。

目前单轮对话最长已经到了500k，注意力正常，没有偏离主线。

图片1456×798 120 KB

图片1288×312 19.4 KB

网友解答：

--【壹】--：

codex文风跟ds不同，不好评价。

ds4.6 pro max追不到opus 4.6开high，但能干一干sonnet。

便宜，1B Token按95%缓存算才一千多人民币，很便宜了。

比GLM-5.1快，快很多。200k以内GLM5.1=ds 4.6 promax， 200开外GLM淘汰。

--【贰】--：

我去，可以放整本的御用医宗金鉴吗？我期待了

--【叁】--：

大佬分享一下整体感受，对比claude opus 4.6和codex整体如何？

--【肆】--：

时间不等人，大模型迭代太快了。

说不定下半年moe这种模式都要淘汰了

--【伍】--：

想问问用过的佬，ds v4pro max幻觉率怎么样，ds模型最大的问题就是幻觉很多，以前只敢拿来处理一下文字和简单工作

--【陆】--：

本来就是量化的呀，至少开源版本是量化了的，不知道官方部署的量化了没有，我估计也是量化了的

而且量化的还挺激进，1.6T的参数量化到只有800多G大小（正常应该是3T+）

image1059×531 44.1 KB

--【柒】--：

等其他人先用高价 token 填充缓存，然后我们就可以享受低价的token了

--【捌】--：

500k 注意力正常这个指标有点太模糊了，是指没有偏离主线，还是长程信息检索依然能力在线？

--【玖】--：

哦，明白了，那说明长任务下能力保持的还不错，你可以试试这样，会话开始时，比如 50k 左右时说一些信息，500k 左右再提到这些信息，看看模型还能不能记住。

--【拾】--：

官API这种形式还是用不起
等等看第三方会不会跟进部署出Coding Plan

--【拾壹】--：

权重本身就是 FP4+FP8 mixed, 说明部署与评测就是基于这个FP4+FP8 mixed的。

--【拾贰】--：

v4本来就是FP4量化，很难再量化下去吧，再量化就没法用了

--【拾叁】--：

image2232×1224 179 KB

52e568b04f124c7b3cdfb05b8393a6771920×956 129 KB

弄了个天气卡片都 5 毛，不敢测了没有 plan

--【拾肆】--：

我认为pro会被量化，1.6t参数量太大了，需要算力更多

--【拾伍】--：

cache key是你请求的，你怎么等？

--【拾陆】--：

等等吧，价格屠夫也不是白叫的，等他上菊花的卡，如果没降价就拉跨了

--【拾柒】--：

等下年950算力卡下方降价估计价格会便宜一半以上

--【拾捌】--：

意思是，我在进行安卓APK分析时，分析过程中没有偏离主线任务，最终生成详细得分析报告，没有遗漏重要信息。

--【拾玖】--：

那这么说其实v4 promax性价比还可以

标签：人工智能