【AI大战短评系列3】真假1m上下文大战开打,CC Max 1m已上线,Antigravity 1m暂未上线
- 内容介绍
- 文章标签
- 相关推荐
这个真假1m上下文,是我自己起的名字,只是个比喻,方便大家区分和理解
3月5日GPT-5.4在御四家里最后一个上线了1m上下文,不过还是"假1m"的范围
3月14日Claude正式开启了“真1m上下文”大战,把业界通行的200k上下文api价格/额度消耗翻倍惯例,彻底打破了,就是200k以上和以下同价
这把GPT,Gemini,Grok架到火上烤,是跟?还是不跟?
来源:1M context is now generally available for Opus 4.6 and Sonnet 4.6 | Claude
其实假1m上下文,一年多前gemini和kimi就在搞
后来也没什么声音了,原因是以前的1m上下文,某种角度说可以说是假1m,基本上是一种广告手段,实用性极低
①假1m = 价格用不起
超过200k价格翻倍,叠加本来消耗就大,例如单价2倍×容量5倍,总成本上限可能10倍,非常不经济
真1m = 200k以下以上同价
②假1m = 超过200k,性能衰减严重,根本没法干活
真1m=这是Claude自己的评测,在1m时,opus性能缩水程度是最小的
image1920×1080 122 KB
以后有第三方评测再补充
③假1m = 以前所有coding会员都不给1m,只给200k,1m只存在于api
3月5日,gpt会员开放1m,其实还是假1m,扭扭捏捏,要自己改toml设置,消耗额度翻倍,其实还是不想让用户用(也可能1m性能太差拿不出手)
真1m = 3月14日Claude max 5x,20x,team都支持了1m上下文(pro没有),且消耗额度不翻倍,这样max/max拼车/max反代api的价值更高了
Antigravity的opus-4.6截止到260315,暂未上线1m,以后跟不跟暂不清楚
我推测ultra会跟,pro不跟(因为Claude Code pro也没有1m)
如果ultra也不跟,加上最近Antigravity ultra貌似在砍opus额度,Antigravity ultra拼车相对于Claude Code拼车的价值会缩水
Antigravity的gemini是1m上下文的,不过超过200k性能衰减严重,有1m也没啥用
网友解答:--【壹】--:
肯定要跟上啊
--【贰】--:
太强了!
--【叁】--:
我眼花了吗?怎么曲线是从低到高,A社这图没画错吧?128K甚至消失了ww,
难不成从100直线降低至10.8,然后再升到18.5吗
image1768×994 150 KB
--【肆】--:
我有点好奇为什么A社不测gpt 5.4的512k和256k
--【伍】--:
可能是烧不起钱了,降本增笑
--【陆】--:
论坛其他相关帖子
(我又来了)真实场景下的1M上下文的国产模型的注意力评测III
我近期其他帖子
.【AI大战短评系列3】真1m上下文大战,开始了
.【IDE系列3】Codex插件常见问题解决办法
.【提智降智系列1】未预训练内容造成严重降智,与各模型搜索能力研究
.【资料系列2】Reddit所有AI板块大全【手工收集,长期更新】
.【省钱系列8】Claude Code,Opus-4.6的渠道研究
.【省钱系列7】常见AI官价/额度,及优惠/羊毛/拼车价汇总【底楼更新闲鱼常见坑】
.【省钱系列6】L站Google/Antigravity/Gemini Ultra会员拼车经验
.【省钱系列5】顶级会员:Gemini Ultra vs ChatGPT Pro【260306楼底更新Deep think常见问题】
.【大模型系列28】关于GPT-5.4-thinking和GPT-5.4-pro,你想知道的一切【底楼更新LiveBench登顶】
.【大模型系列27】关于Grok 4.2,你想知道的一切【底楼更新grok-4.2-beta2上线】
.【大模型系列26】关于Gemini 3.1 Pro,你想知道的一切【底楼更新LiveBench评分】
.【大模型系列25】关于Qwen-3.5,你想知道的一切【百万上下文来了】
.【大模型系列24】关于Doubao Seed 2.0 Pro,你想知道的一切【LMArena总榜第6】
.【大模型系列23】关于Gemini 3.1 Deep Think新版,你想知道的一切
.【大模型系列22】关于Minimax M2.5,你想知道的一切【楼底更新OpenRouter月榜第一】
.【大模型系列21】关于GLM5,你想知道的一切【底楼更新Trae/Kilo免费】
.【大模型系列20】关于Opus-4.6,你想知道的一切【底楼更新METR评测】
.【图像视频系列5】Ultra会员NotebookLM视频预览新增Cinematic模式【更新实测体验】
.【图像视频系列4】关于Seedance2,你想知道的一切,性能碾压Sora2/VEO3.1【260211新增随变app不限量渠道】
--【柒】--:
1.0 pro 的视频演示更是逆天
--【捌】--:
摇头好啊
--【玖】--:
为什么你学我摇头(bushi
--【拾】--: PositronCannon:
相对于以前 2.5pro 时期的注意力,这 3/3.1 pro 纯粹是自废武功,“扬短避长”
是,早期1.5Pro的论文倒是说自己贼厉害(
--【拾壹】--:
GPT也跟上吧,这样我可以掏很多钱买
--【拾贰】--:
OpenAI MRCR v2 8-needle 4K–8K
97.3%
—
—
98.2%
—
OpenAI MRCR v2 8-needle 8K–16K
91.4%
—
—
89.3%
—
OpenAI MRCR v2 8-needle 16K–32K
97.2%
—
—
95.3%
—
OpenAI MRCR v2 8-needle 32K–64K
90.5%
—
—
92.0%
—
OpenAI MRCR v2 8-needle 64K–128K
86.0%
—
—
85.6%
—
OpenAI MRCR v2 8-needle 128K–256K
79.3%
—
—
77.0%
—
OpenAI MRCR v2 8-needle 256K–512K
57.5%
—
—
—
—
OpenAI MRCR v2 8-needle 512K–1M
36.6%
我感觉这个战绩不错啊,起码有个512k了,1m对gpt这种记忆力不好的还是太难了哈哈
--【拾叁】--:
感谢梁文锋开源
(指 DS 发布的 DSA 论文,提出的方法可以增加模型的长上下文能力)
--【拾肆】--:
codex确实是 CLI 低于30%后明显变笨
--【拾伍】--:
就是 MRCR v2 (8-needle) 什么的呢(
前排挤挤(
--【拾陆】--:
Gemini 3 属于是意料之中的拉胯。
相对于以前2.5pro 时期的注意力,这 3/3.1 pro 纯粹是自废武功,“扬短避长”
--【拾柒】--: dwqxq1:
假1m = 超过200k,性能衰减严重,根本没法干活
GPT的大概到300k的时候就会频繁后台compact了,具体体现为,在API里,我干活输入指令,他会输出一遍对于上一轮和之前轮次的回答总结,不是回答我最新的问题,即使我revert,只要长度到固定值就会触发。在ChatGPT里更是,我几个月前就有一些吃上下文的对话,塞一些文档进去,有时候文档不是很长但是轮次很多,越后面的轮次,他重复上一轮的回答就越频繁
这个真假1m上下文,是我自己起的名字,只是个比喻,方便大家区分和理解
3月5日GPT-5.4在御四家里最后一个上线了1m上下文,不过还是"假1m"的范围
3月14日Claude正式开启了“真1m上下文”大战,把业界通行的200k上下文api价格/额度消耗翻倍惯例,彻底打破了,就是200k以上和以下同价
这把GPT,Gemini,Grok架到火上烤,是跟?还是不跟?
来源:1M context is now generally available for Opus 4.6 and Sonnet 4.6 | Claude
其实假1m上下文,一年多前gemini和kimi就在搞
后来也没什么声音了,原因是以前的1m上下文,某种角度说可以说是假1m,基本上是一种广告手段,实用性极低
①假1m = 价格用不起
超过200k价格翻倍,叠加本来消耗就大,例如单价2倍×容量5倍,总成本上限可能10倍,非常不经济
真1m = 200k以下以上同价
②假1m = 超过200k,性能衰减严重,根本没法干活
真1m=这是Claude自己的评测,在1m时,opus性能缩水程度是最小的
image1920×1080 122 KB
以后有第三方评测再补充
③假1m = 以前所有coding会员都不给1m,只给200k,1m只存在于api
3月5日,gpt会员开放1m,其实还是假1m,扭扭捏捏,要自己改toml设置,消耗额度翻倍,其实还是不想让用户用(也可能1m性能太差拿不出手)
真1m = 3月14日Claude max 5x,20x,team都支持了1m上下文(pro没有),且消耗额度不翻倍,这样max/max拼车/max反代api的价值更高了
Antigravity的opus-4.6截止到260315,暂未上线1m,以后跟不跟暂不清楚
我推测ultra会跟,pro不跟(因为Claude Code pro也没有1m)
如果ultra也不跟,加上最近Antigravity ultra貌似在砍opus额度,Antigravity ultra拼车相对于Claude Code拼车的价值会缩水
Antigravity的gemini是1m上下文的,不过超过200k性能衰减严重,有1m也没啥用
网友解答:--【壹】--:
肯定要跟上啊
--【贰】--:
太强了!
--【叁】--:
我眼花了吗?怎么曲线是从低到高,A社这图没画错吧?128K甚至消失了ww,
难不成从100直线降低至10.8,然后再升到18.5吗
image1768×994 150 KB
--【肆】--:
我有点好奇为什么A社不测gpt 5.4的512k和256k
--【伍】--:
可能是烧不起钱了,降本增笑
--【陆】--:
论坛其他相关帖子
(我又来了)真实场景下的1M上下文的国产模型的注意力评测III
我近期其他帖子
.【AI大战短评系列3】真1m上下文大战,开始了
.【IDE系列3】Codex插件常见问题解决办法
.【提智降智系列1】未预训练内容造成严重降智,与各模型搜索能力研究
.【资料系列2】Reddit所有AI板块大全【手工收集,长期更新】
.【省钱系列8】Claude Code,Opus-4.6的渠道研究
.【省钱系列7】常见AI官价/额度,及优惠/羊毛/拼车价汇总【底楼更新闲鱼常见坑】
.【省钱系列6】L站Google/Antigravity/Gemini Ultra会员拼车经验
.【省钱系列5】顶级会员:Gemini Ultra vs ChatGPT Pro【260306楼底更新Deep think常见问题】
.【大模型系列28】关于GPT-5.4-thinking和GPT-5.4-pro,你想知道的一切【底楼更新LiveBench登顶】
.【大模型系列27】关于Grok 4.2,你想知道的一切【底楼更新grok-4.2-beta2上线】
.【大模型系列26】关于Gemini 3.1 Pro,你想知道的一切【底楼更新LiveBench评分】
.【大模型系列25】关于Qwen-3.5,你想知道的一切【百万上下文来了】
.【大模型系列24】关于Doubao Seed 2.0 Pro,你想知道的一切【LMArena总榜第6】
.【大模型系列23】关于Gemini 3.1 Deep Think新版,你想知道的一切
.【大模型系列22】关于Minimax M2.5,你想知道的一切【楼底更新OpenRouter月榜第一】
.【大模型系列21】关于GLM5,你想知道的一切【底楼更新Trae/Kilo免费】
.【大模型系列20】关于Opus-4.6,你想知道的一切【底楼更新METR评测】
.【图像视频系列5】Ultra会员NotebookLM视频预览新增Cinematic模式【更新实测体验】
.【图像视频系列4】关于Seedance2,你想知道的一切,性能碾压Sora2/VEO3.1【260211新增随变app不限量渠道】
--【柒】--:
1.0 pro 的视频演示更是逆天
--【捌】--:
摇头好啊
--【玖】--:
为什么你学我摇头(bushi
--【拾】--: PositronCannon:
相对于以前 2.5pro 时期的注意力,这 3/3.1 pro 纯粹是自废武功,“扬短避长”
是,早期1.5Pro的论文倒是说自己贼厉害(
--【拾壹】--:
GPT也跟上吧,这样我可以掏很多钱买
--【拾贰】--:
OpenAI MRCR v2 8-needle 4K–8K
97.3%
—
—
98.2%
—
OpenAI MRCR v2 8-needle 8K–16K
91.4%
—
—
89.3%
—
OpenAI MRCR v2 8-needle 16K–32K
97.2%
—
—
95.3%
—
OpenAI MRCR v2 8-needle 32K–64K
90.5%
—
—
92.0%
—
OpenAI MRCR v2 8-needle 64K–128K
86.0%
—
—
85.6%
—
OpenAI MRCR v2 8-needle 128K–256K
79.3%
—
—
77.0%
—
OpenAI MRCR v2 8-needle 256K–512K
57.5%
—
—
—
—
OpenAI MRCR v2 8-needle 512K–1M
36.6%
我感觉这个战绩不错啊,起码有个512k了,1m对gpt这种记忆力不好的还是太难了哈哈
--【拾叁】--:
感谢梁文锋开源
(指 DS 发布的 DSA 论文,提出的方法可以增加模型的长上下文能力)
--【拾肆】--:
codex确实是 CLI 低于30%后明显变笨
--【拾伍】--:
就是 MRCR v2 (8-needle) 什么的呢(
前排挤挤(
--【拾陆】--:
Gemini 3 属于是意料之中的拉胯。
相对于以前2.5pro 时期的注意力,这 3/3.1 pro 纯粹是自废武功,“扬短避长”
--【拾柒】--: dwqxq1:
假1m = 超过200k,性能衰减严重,根本没法干活
GPT的大概到300k的时候就会频繁后台compact了,具体体现为,在API里,我干活输入指令,他会输出一遍对于上一轮和之前轮次的回答总结,不是回答我最新的问题,即使我revert,只要长度到固定值就会触发。在ChatGPT里更是,我几个月前就有一些吃上下文的对话,塞一些文档进去,有时候文档不是很长但是轮次很多,越后面的轮次,他重复上一轮的回答就越频繁

