Hermes agent 缓存命中问题

2026-04-13 12:341阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

最近在用Hermes agent,在使用过程中发现缓存命中率极低,求问各位佬有没有好的解决方案?
尝试让它自己解决,改了和时间戳、session id相关的东西,但似乎没有效果。
用的模型是中转站api接的gpt-5.4,在codex中能正常命中缓存。

网友解答:
--【壹】--:

如果用中转站的话,直接在控制台使用日志里就能看到


--【贰】--:

求教佬怎么让它走/v1/responses的?我的api支持responses,但在hermes里默认走chat completions


--【叁】--:

image1048×837 54.7 KB

我感觉还可以吧


--【肆】--:

chat completions更适合日常聊天窗口的对话。responses支持多轮推理,工具调用等,适合智能体


--【伍】--:

估计 api 的缓存控制方式不一样。需要确认 LLM Provider 是否适配

我用的 gpt5.4-mini, 反馈很快,感觉应该能命中… ( cpa 中转 codex 的 oauth)


--【陆】--:

啥是缓存命中啊,求问?我感觉我的hermes很爱搜索


--【柒】--:

暂时没有诶,我看当前hermes只支持三种api_mode,只有"chat_completions",“codex_responses”,"anthropic_messages"这三种,似乎不支持responses,不知道会不会是这个原因。(我试着改成codex_responses也用不了,这个似乎只能用codex登录使用)


--【捌】--:

佬,这两种url模式,具体是有啥区别吗?


--【玖】--:

佬找到方案了吗?opencode这类说是缓存的挺好的,不知道能不能借鉴一下


--【拾】--:

/root/.hermes/config.yaml

model:

default: gpt-5.4

provider: auto

base_url: xx

api_mode: codex_responses

context_length: 900000

大概就这样

让它自己帮你改就行


--【拾壹】--:

佬、缓存命中率是从什么/哪里/如何/工具查看的?


--【拾贰】--:

我们每次调用模型进行多轮对话,本质上会把前面所有内容作为prompt输入,这样输入的token会不断叠加,这样显然会让对话成本飙升。如果我们前面的对话内容已经被缓存,模型会识别后续输入的重复的内容,一般模型读缓存token的价格是直接读输入的1/10,所以缓存命中率越高,越有利于节省成本,也有利于提高响应速度。
但是如果你的prompt前面有经常变动的前缀(比如时间戳、agent.md文件发生改动),就很难命中缓存,不仅会让成本上升,而且后面响应会越来越慢。
(感觉hermes的自我学习特点天然不利于缓存命中)


--【拾叁】--:

破案了,感谢佬,我在config.yaml加了一行api_mode: codex_responses,解决了。
image806×946 31.7 KB

问题描述:

最近在用Hermes agent,在使用过程中发现缓存命中率极低,求问各位佬有没有好的解决方案?
尝试让它自己解决,改了和时间戳、session id相关的东西,但似乎没有效果。
用的模型是中转站api接的gpt-5.4,在codex中能正常命中缓存。

网友解答:
--【壹】--:

如果用中转站的话,直接在控制台使用日志里就能看到


--【贰】--:

求教佬怎么让它走/v1/responses的?我的api支持responses,但在hermes里默认走chat completions


--【叁】--:

image1048×837 54.7 KB

我感觉还可以吧


--【肆】--:

chat completions更适合日常聊天窗口的对话。responses支持多轮推理,工具调用等,适合智能体


--【伍】--:

估计 api 的缓存控制方式不一样。需要确认 LLM Provider 是否适配

我用的 gpt5.4-mini, 反馈很快,感觉应该能命中… ( cpa 中转 codex 的 oauth)


--【陆】--:

啥是缓存命中啊,求问?我感觉我的hermes很爱搜索


--【柒】--:

暂时没有诶,我看当前hermes只支持三种api_mode,只有"chat_completions",“codex_responses”,"anthropic_messages"这三种,似乎不支持responses,不知道会不会是这个原因。(我试着改成codex_responses也用不了,这个似乎只能用codex登录使用)


--【捌】--:

佬,这两种url模式,具体是有啥区别吗?


--【玖】--:

佬找到方案了吗?opencode这类说是缓存的挺好的,不知道能不能借鉴一下


--【拾】--:

/root/.hermes/config.yaml

model:

default: gpt-5.4

provider: auto

base_url: xx

api_mode: codex_responses

context_length: 900000

大概就这样

让它自己帮你改就行


--【拾壹】--:

佬、缓存命中率是从什么/哪里/如何/工具查看的?


--【拾贰】--:

我们每次调用模型进行多轮对话,本质上会把前面所有内容作为prompt输入,这样输入的token会不断叠加,这样显然会让对话成本飙升。如果我们前面的对话内容已经被缓存,模型会识别后续输入的重复的内容,一般模型读缓存token的价格是直接读输入的1/10,所以缓存命中率越高,越有利于节省成本,也有利于提高响应速度。
但是如果你的prompt前面有经常变动的前缀(比如时间戳、agent.md文件发生改动),就很难命中缓存,不仅会让成本上升,而且后面响应会越来越慢。
(感觉hermes的自我学习特点天然不利于缓存命中)


--【拾叁】--:

破案了,感谢佬,我在config.yaml加了一行api_mode: codex_responses,解决了。
image806×946 31.7 KB