深度研究了下,发现Claude 上下文与长期记忆不适合国产ai
- 内容介绍
- 文章标签
- 相关推荐
一直感觉cc有时候没有那么强,国产ai没那么弱,但是就是cc挺好用,最近没事研究了下cc的泄漏源码,我发现
Claude cli的长期记忆,本质上仍然是“把记忆塞回上下文”。它没有真正跳出上下文窗口,只是在上下文窗口快爆炸时,用更复杂的摘要、更聪明的筛选、更贵的模型调用,继续维持这个旧范式。 所以claude更适合这套模型,在国产上下文注意没那么集中的用cc反而在一轮轮的压缩后降智(opus4.7也是同理),
Claude cli 的上下文更像一个临时工作台,里面同时堆着:
系统指令
用户当前请求
历史对话
工具定义
工具调用结果
文件片段
项目信息
环境信息
记忆文件
压缩摘要
会话状态
模型需要遵守的行为规则
这些东西最终都会进入同一个窗口。
这个窗口就是模型当前能“看见”的世界。
模型不知道窗口外发生了什么。窗口外的东西如果没有被重新召回、重新摘要、重新拼进 prompt,它对模型来说就不存在。
所以 Claude cli的上下文管理,核心不是“记忆”,而是“窗口资源调度”。
它要不停决定:
哪些历史消息还值得保留
哪些工具结果必须留下
哪些文件片段要塞进去
哪些记忆可能相关
哪些内容可以摘要
哪些内容可以丢掉
什么时候必须压缩
这套系统的目的不是让模型真正拥有长期记忆,而是让模型在有限窗口里尽量不要失忆得太严重。
长期记忆看起来有很多层。
1. 静态记忆,用来记录用户偏好、项目背景、长期规则。
2. 会话记忆,用来总结当前任务进展、关键文件、错误修复、待办事项。
3. 自动提取,用来从对话中抽取值得保留的信息。
4. 跨会话整理,用来把零散记忆合并、剪枝、重写。
5. 它还有团队记忆,用来在多人场景里共享某些知识。
长期记忆最终还是要变成文本,被塞回上下文,才能被模型使用。
这意味着 Claude cli的长期记忆不是一个独立的知识系统,而是上下文的附属品。
它的记忆不是“模型真正知道了什么”,而是“这次 prompt 里有没有把相关内容带上”。
要是没有带上,记忆就等于不存在。
带错了,记忆就会污染推理。
带多了,上下文就会膨胀。
压缩了,就会丢失细节。
Claude cli真正的问题:它把上下文当成大脑
功能太多,但都围绕同一个旧假设展开:
模型的大脑就是上下文窗口。
这个假设在短任务里成立。
写一个函数、改一个文件、回答一个问题,窗口足够大,摘要足够准,体验可以很好。
但一旦任务变长,项目变复杂,记忆变多,团队协作变频繁,这个假设就开始崩塌。
因为上下文窗口不是大脑。
它只是一次推理的输入缓存。
把更多东西塞进缓存,不会变成真正的长期理解。
把旧内容压缩成摘要,也不会变成稳定的知识。
把记忆写成 Markdown,也不会自动变成可验证、可更新、可检索、可审计的记忆系统。
Claude cli的上下文越强,它越容易让人误以为问题已经解决。
但本质上,它只是把“失忆”推迟了,把“遗忘”包装成了“压缩”,把“重新阅读”包装成了“长期记忆”。
Claude 就是长期记忆很太依赖记忆文件。
这种方式简单、透明、容易被模型读取。
但文件不是系统。
文件只解决“放在哪里”,没有解决“如何变成可信记忆”。
真正的长期记忆至少要回答这些问题:
这条记忆从哪里来?
什么时候产生?
为什么重要?
是否已经过期?
是否与其他记忆冲突?
是否被用户确认过?
是否应该只对当前项目生效?
是否应该对所有项目生效?
是否被模型多次使用过?
使用后是否证明有效?
是否应该合并、降权、归档或删除?
Claude cli记忆md文件可以承载信息,但无法天然承担这些治理能力。
一旦记忆变多,它就会变成另一种技术债:
旧偏好污染新任务。
过期事实继续生效。
重复记忆互相打架。
全局规则误伤局部项目。
模型写入的内容用户没有检查。
最后,长期记忆不再是优势,而变成 prompt 里的长期噪声。
**这样深度研究下去,就会发现Claude cli的架构不适合国产模型**Claude cli的能力很强,但强在 Claude 生态里。
它围绕 Claude cli的上下文窗口、工具调用、推理格式、缓存能力、模型选择和云端服务建立。
这对 Claude 是优势。
对国产模型 就是负担。
国产模型生态的现实是:
不同厂商的工具调用格式存在差异
reasoning 内容输出方式不统一
中文 token 计算差异明显
上下文窗口和真实可用上下文不完全一致
流式输出字段不稳定
企业经常需要自定义网关和私有化部署
数据不能默认进入海外云服务
Claude cli 面向多模型的时候,就没有那么好用了。
更长上下文救不了这个问题很多人以为,只要模型上下文足够长,长期记忆就不再需要了。
这是不准确的。
更长上下文只会推迟问题,不会解决问题。
因为长期工作的问题不是“能不能塞进去”,而是:
- 怎么判断什么重要?
- 怎么保证旧信息不过期?
- 怎么处理冲突?
- 怎么让用户审查?
- 怎么跨模型复用?
- 怎么跨设备同步?
- 怎么保护隐私?
- 怎么让记忆持续变好?
- 怎么让上下文只包含当前真正需要的内容?
上下文越长,噪声越多。
噪声越多,模型越容易被干扰。
把所有历史都塞进去,是懒的表现。
真正的长期记忆不是无限上下文。
真正的长期记忆是选择、组织、更新、检索、验证和遗忘。
新的设计- 借鉴 Claude cli:上下文工程、任务状态、自动压缩、会话恢复、工具结果整理。
- 批判 Claude cli:最终还是把能力压回上下文窗口。
- 借鉴 Mem0:记忆创建、搜索、更新、删除、作用域、元数据、语义召回、关系和冲突。
| 维度 | Claude/all | 新设计 |
|---|---|---|
| 核心范式 | 上下文窗口中心 | 长期记忆系统中心 |
| 记忆形态 | 文本文件和摘要为主 | 结构化、本地化、可治理 |
| 使用方式 | 召回后塞进 prompt | 先检索、再筛选、再编译上下文 |
| 压缩本质 | 摘要历史 | 迁移状态 |
| 用户控制 | 有限可见 | 可视化、可编辑、可审计 |
| 模型绑定 | 深度适配 Claude | 面向多模型和国产模型 |
| 数据主权 | 强依赖生态能力 | 本地优先,可私有化 |
| 长期演进 | 容易变成 prompt 负债 | 可以持续整理、合并、降权和遗忘 |
本设计最核心的创新点: BFS 跨链历史追踪
当记忆经过 合并或 Compacted 压缩后,传统系统会丢失源记录的历史。新的设计通过 BFS 遍历事件链中的 source_ids 引用,自动追踪完整来源
具体的细节设计下次单独开一篇再说吧,
目标就是更贴合更符合国产ai
让国产ai也能真正的能长时间运行并且不丢失上下文
附上几张还在开发的图,
不需要推广
AI 记忆平台 Mem0 近期公开了其核心长效记忆算法的研究成果。实验数据显示,在 LOCOMO 基准测试中,Mem0 的响应准确率比 OpenAI 的内置记忆功能高出 26%,同时由于其「事实化」的检索机制,其 P95 推理延迟降低了 91%,Token 消耗量缩减了 90%。 该算法解决的核心问题是 AI 代理在长周期交互中的「健忘」现象。与单纯扩大 LLM 上下文窗口的暴力路径不同,Mem…
现在讨论观点也能被举报嘛,太久没玩了L站了
纯属研究娱乐,不一定对,国产模型在trae自定义的效果感觉更好
image2266×1612 223 KB
image2246×1370 220 KB
image2184×1918 220 KB
--【壹】--:
主要是记忆越来越多时,压缩等越来越多时,会遇到问题,记忆怎么产生,记忆之间是否冲突相关问题
--【贰】--:
没太理解,这是想表达什么。记忆不就是上下文的注入了,lz凭什么证明你说的“长期记忆”才是有效的。
并且论证本身就很奇怪吧,国产模型为什么就不兼容(上下文短那ds和mimo应该可以吧),以及国产模型凭什么在你的框架下不会有问题
--【叁】--:
对比呢 拿事实出来啊!消耗了多少TOKEN!给个不适合国产AI的分析报告!
--【肆】--:
哈哈哈 ,主要是我想看看有没有同样观点的
--【伍】--: 吴亦Fan?:
消耗了多少TOKEN
消耗了多少TOKEN??????????
--【陆】--:
何意味,不管你记忆再怎么管理,最终塞给模型的不还是一段上下文,又不能提高模型的上下文限制
--【柒】--:
我的意思是你这篇文章的论证就写得很奇怪啊,为什么要踩一脚cc呢,cc写代码的工具有必要用更复杂的记忆框架吗?对比openclaw的记忆才有意义吧。然后国产模型不适配纯纯是你的妄想吧,你看看你举的那几个例子有价值的才几个。
说实话,我个人对记忆框架很感兴趣,但是你这篇文章也很像ai写的
--【捌】--:
在细的我没有写太多, 事件溯源 四级作用域 BFS 跨链历史追踪 去重新鲜度设计 太多了,没来急写
--【玖】--:
哈哈,我的文笔就这样,国产模型现在都在说自己能长时间运作干活,确实如此,但是出的效果跟claude跑10个小时出来的效果差的很远,我没测试过4.7,国产模型确实能跑几个小时,但是到最后偏移度很高,
--【拾】--:
记忆最终一定要进上下文,但真正的差异在于:Claude更偏上下文工程,我的设计参考 Mem0 设计强调上下文注入之前的记忆治理层。它不是让模型永远不失忆,而是让记忆的产生、选择、更新和删除变得可控
--【拾壹】--:
这写的什么东西啊。。。看得我一头雾水,能不能先有条理的说人话再发表观点,看着跟AI一样而且混乱不堪ovo
--【拾贰】--:
佬,之后终版出来之后可以换一个写法,比方说这一篇
10年AI研究,我想说说:为什么现在很多Agent框架的“记忆”方案,可能从一开始就走偏了 搞七捻三发这个贴的原因,是看到论坛里很多佬友对ai的记忆系统如何设计,以及人类的记忆系统是如何工作的缺乏概念,看着有些抓耳挠腮干着急。想冲上去纠正但是又怕冒犯了人家,所以干脆自己开贴说了。 交代下背景。我决定往人工智能方向走,是因为15年学习了吴恩达的机器学习网课。之后一边自学机器学习,强化学习,脑科学,一边拿到了信息工程、生物学(准确说是理学硕士)的学位,同时辅修了认知科学。主攻研究方向是计算神经科学…
大家都在探索,不过你必须有据可依,多花点时间介绍自己的框架什么样而不是列举一堆无法解决的问题
--【拾叁】--:
我没看懂楼主想表达什么
不过论上下文压缩
codex 的压缩设计概念说不定可以采用在国产模型上
一直感觉cc有时候没有那么强,国产ai没那么弱,但是就是cc挺好用,最近没事研究了下cc的泄漏源码,我发现
Claude cli的长期记忆,本质上仍然是“把记忆塞回上下文”。它没有真正跳出上下文窗口,只是在上下文窗口快爆炸时,用更复杂的摘要、更聪明的筛选、更贵的模型调用,继续维持这个旧范式。 所以claude更适合这套模型,在国产上下文注意没那么集中的用cc反而在一轮轮的压缩后降智(opus4.7也是同理),
Claude cli 的上下文更像一个临时工作台,里面同时堆着:
系统指令
用户当前请求
历史对话
工具定义
工具调用结果
文件片段
项目信息
环境信息
记忆文件
压缩摘要
会话状态
模型需要遵守的行为规则
这些东西最终都会进入同一个窗口。
这个窗口就是模型当前能“看见”的世界。
模型不知道窗口外发生了什么。窗口外的东西如果没有被重新召回、重新摘要、重新拼进 prompt,它对模型来说就不存在。
所以 Claude cli的上下文管理,核心不是“记忆”,而是“窗口资源调度”。
它要不停决定:
哪些历史消息还值得保留
哪些工具结果必须留下
哪些文件片段要塞进去
哪些记忆可能相关
哪些内容可以摘要
哪些内容可以丢掉
什么时候必须压缩
这套系统的目的不是让模型真正拥有长期记忆,而是让模型在有限窗口里尽量不要失忆得太严重。
长期记忆看起来有很多层。
1. 静态记忆,用来记录用户偏好、项目背景、长期规则。
2. 会话记忆,用来总结当前任务进展、关键文件、错误修复、待办事项。
3. 自动提取,用来从对话中抽取值得保留的信息。
4. 跨会话整理,用来把零散记忆合并、剪枝、重写。
5. 它还有团队记忆,用来在多人场景里共享某些知识。
长期记忆最终还是要变成文本,被塞回上下文,才能被模型使用。
这意味着 Claude cli的长期记忆不是一个独立的知识系统,而是上下文的附属品。
它的记忆不是“模型真正知道了什么”,而是“这次 prompt 里有没有把相关内容带上”。
要是没有带上,记忆就等于不存在。
带错了,记忆就会污染推理。
带多了,上下文就会膨胀。
压缩了,就会丢失细节。
Claude cli真正的问题:它把上下文当成大脑
功能太多,但都围绕同一个旧假设展开:
模型的大脑就是上下文窗口。
这个假设在短任务里成立。
写一个函数、改一个文件、回答一个问题,窗口足够大,摘要足够准,体验可以很好。
但一旦任务变长,项目变复杂,记忆变多,团队协作变频繁,这个假设就开始崩塌。
因为上下文窗口不是大脑。
它只是一次推理的输入缓存。
把更多东西塞进缓存,不会变成真正的长期理解。
把旧内容压缩成摘要,也不会变成稳定的知识。
把记忆写成 Markdown,也不会自动变成可验证、可更新、可检索、可审计的记忆系统。
Claude cli的上下文越强,它越容易让人误以为问题已经解决。
但本质上,它只是把“失忆”推迟了,把“遗忘”包装成了“压缩”,把“重新阅读”包装成了“长期记忆”。
Claude 就是长期记忆很太依赖记忆文件。
这种方式简单、透明、容易被模型读取。
但文件不是系统。
文件只解决“放在哪里”,没有解决“如何变成可信记忆”。
真正的长期记忆至少要回答这些问题:
这条记忆从哪里来?
什么时候产生?
为什么重要?
是否已经过期?
是否与其他记忆冲突?
是否被用户确认过?
是否应该只对当前项目生效?
是否应该对所有项目生效?
是否被模型多次使用过?
使用后是否证明有效?
是否应该合并、降权、归档或删除?
Claude cli记忆md文件可以承载信息,但无法天然承担这些治理能力。
一旦记忆变多,它就会变成另一种技术债:
旧偏好污染新任务。
过期事实继续生效。
重复记忆互相打架。
全局规则误伤局部项目。
模型写入的内容用户没有检查。
最后,长期记忆不再是优势,而变成 prompt 里的长期噪声。
**这样深度研究下去,就会发现Claude cli的架构不适合国产模型**Claude cli的能力很强,但强在 Claude 生态里。
它围绕 Claude cli的上下文窗口、工具调用、推理格式、缓存能力、模型选择和云端服务建立。
这对 Claude 是优势。
对国产模型 就是负担。
国产模型生态的现实是:
不同厂商的工具调用格式存在差异
reasoning 内容输出方式不统一
中文 token 计算差异明显
上下文窗口和真实可用上下文不完全一致
流式输出字段不稳定
企业经常需要自定义网关和私有化部署
数据不能默认进入海外云服务
Claude cli 面向多模型的时候,就没有那么好用了。
更长上下文救不了这个问题很多人以为,只要模型上下文足够长,长期记忆就不再需要了。
这是不准确的。
更长上下文只会推迟问题,不会解决问题。
因为长期工作的问题不是“能不能塞进去”,而是:
- 怎么判断什么重要?
- 怎么保证旧信息不过期?
- 怎么处理冲突?
- 怎么让用户审查?
- 怎么跨模型复用?
- 怎么跨设备同步?
- 怎么保护隐私?
- 怎么让记忆持续变好?
- 怎么让上下文只包含当前真正需要的内容?
上下文越长,噪声越多。
噪声越多,模型越容易被干扰。
把所有历史都塞进去,是懒的表现。
真正的长期记忆不是无限上下文。
真正的长期记忆是选择、组织、更新、检索、验证和遗忘。
新的设计- 借鉴 Claude cli:上下文工程、任务状态、自动压缩、会话恢复、工具结果整理。
- 批判 Claude cli:最终还是把能力压回上下文窗口。
- 借鉴 Mem0:记忆创建、搜索、更新、删除、作用域、元数据、语义召回、关系和冲突。
| 维度 | Claude/all | 新设计 |
|---|---|---|
| 核心范式 | 上下文窗口中心 | 长期记忆系统中心 |
| 记忆形态 | 文本文件和摘要为主 | 结构化、本地化、可治理 |
| 使用方式 | 召回后塞进 prompt | 先检索、再筛选、再编译上下文 |
| 压缩本质 | 摘要历史 | 迁移状态 |
| 用户控制 | 有限可见 | 可视化、可编辑、可审计 |
| 模型绑定 | 深度适配 Claude | 面向多模型和国产模型 |
| 数据主权 | 强依赖生态能力 | 本地优先,可私有化 |
| 长期演进 | 容易变成 prompt 负债 | 可以持续整理、合并、降权和遗忘 |
本设计最核心的创新点: BFS 跨链历史追踪
当记忆经过 合并或 Compacted 压缩后,传统系统会丢失源记录的历史。新的设计通过 BFS 遍历事件链中的 source_ids 引用,自动追踪完整来源
具体的细节设计下次单独开一篇再说吧,
目标就是更贴合更符合国产ai
让国产ai也能真正的能长时间运行并且不丢失上下文
附上几张还在开发的图,
不需要推广
AI 记忆平台 Mem0 近期公开了其核心长效记忆算法的研究成果。实验数据显示,在 LOCOMO 基准测试中,Mem0 的响应准确率比 OpenAI 的内置记忆功能高出 26%,同时由于其「事实化」的检索机制,其 P95 推理延迟降低了 91%,Token 消耗量缩减了 90%。 该算法解决的核心问题是 AI 代理在长周期交互中的「健忘」现象。与单纯扩大 LLM 上下文窗口的暴力路径不同,Mem…
现在讨论观点也能被举报嘛,太久没玩了L站了
纯属研究娱乐,不一定对,国产模型在trae自定义的效果感觉更好
image2266×1612 223 KB
image2246×1370 220 KB
image2184×1918 220 KB
--【壹】--:
主要是记忆越来越多时,压缩等越来越多时,会遇到问题,记忆怎么产生,记忆之间是否冲突相关问题
--【贰】--:
没太理解,这是想表达什么。记忆不就是上下文的注入了,lz凭什么证明你说的“长期记忆”才是有效的。
并且论证本身就很奇怪吧,国产模型为什么就不兼容(上下文短那ds和mimo应该可以吧),以及国产模型凭什么在你的框架下不会有问题
--【叁】--:
对比呢 拿事实出来啊!消耗了多少TOKEN!给个不适合国产AI的分析报告!
--【肆】--:
哈哈哈 ,主要是我想看看有没有同样观点的
--【伍】--: 吴亦Fan?:
消耗了多少TOKEN
消耗了多少TOKEN??????????
--【陆】--:
何意味,不管你记忆再怎么管理,最终塞给模型的不还是一段上下文,又不能提高模型的上下文限制
--【柒】--:
我的意思是你这篇文章的论证就写得很奇怪啊,为什么要踩一脚cc呢,cc写代码的工具有必要用更复杂的记忆框架吗?对比openclaw的记忆才有意义吧。然后国产模型不适配纯纯是你的妄想吧,你看看你举的那几个例子有价值的才几个。
说实话,我个人对记忆框架很感兴趣,但是你这篇文章也很像ai写的
--【捌】--:
在细的我没有写太多, 事件溯源 四级作用域 BFS 跨链历史追踪 去重新鲜度设计 太多了,没来急写
--【玖】--:
哈哈,我的文笔就这样,国产模型现在都在说自己能长时间运作干活,确实如此,但是出的效果跟claude跑10个小时出来的效果差的很远,我没测试过4.7,国产模型确实能跑几个小时,但是到最后偏移度很高,
--【拾】--:
记忆最终一定要进上下文,但真正的差异在于:Claude更偏上下文工程,我的设计参考 Mem0 设计强调上下文注入之前的记忆治理层。它不是让模型永远不失忆,而是让记忆的产生、选择、更新和删除变得可控
--【拾壹】--:
这写的什么东西啊。。。看得我一头雾水,能不能先有条理的说人话再发表观点,看着跟AI一样而且混乱不堪ovo
--【拾贰】--:
佬,之后终版出来之后可以换一个写法,比方说这一篇
10年AI研究,我想说说:为什么现在很多Agent框架的“记忆”方案,可能从一开始就走偏了 搞七捻三发这个贴的原因,是看到论坛里很多佬友对ai的记忆系统如何设计,以及人类的记忆系统是如何工作的缺乏概念,看着有些抓耳挠腮干着急。想冲上去纠正但是又怕冒犯了人家,所以干脆自己开贴说了。 交代下背景。我决定往人工智能方向走,是因为15年学习了吴恩达的机器学习网课。之后一边自学机器学习,强化学习,脑科学,一边拿到了信息工程、生物学(准确说是理学硕士)的学位,同时辅修了认知科学。主攻研究方向是计算神经科学…
大家都在探索,不过你必须有据可依,多花点时间介绍自己的框架什么样而不是列举一堆无法解决的问题
--【拾叁】--:
我没看懂楼主想表达什么
不过论上下文压缩
codex 的压缩设计概念说不定可以采用在国产模型上

