折腾通了多agent多大模型协作的问题,coding plan套壳NewAPI踩坑分享
- 内容介绍
- 文章标签
- 相关推荐
最近手头订阅了智谱 GLM 和 MiniMax 的 Coding Plan。但在实际使用中,遇到一个极其蛋疼的资源错配问题:GLM 不够用,MiniMax用不完
1. 遇到的问题
之前我使用的是 Claude Code,为了充分利用两个coding plan
计划是用 NewAPI 做一层套壳路由,在不同的 Agent 任务中配置不同的模型,实现自动分流。但实操下来完全不可行: 一旦触发了官方 API 的 429 Rate Limit(并发或限流报错),Claude Code 会直接将连接降级为非流式(Non-streaming)。
并且非流式的响应速度慢得令人发指,需要 100s 到 300s 才能返回一次内容。这时候终端界面就跟死机了一样卡在那里,并且在后台一直重试。如图:
image779×600 36.2 KB
深挖根因分析: 这大概率是协议格式背的锅。Claude Code 底层强制使用 Anthropic 的专属 XML 格式。当流式传输中断或报错时,模型吐出的 XML 标签损坏,导致没有返回 CC 期待的正确格式。CC 客户端的底层逻辑误以为是网络波动,就会一直重试,最终演变成死循环。
2. 解决思路
为了根治这个底层的协议病,我迁移到了OpenCode。
它原生支持 OpenAI 格式。 没有了强扭的 Anthropic 格式转换,API 429会自动重试,而不是转化成非流。
我之前不愿意更换工具的原因是担心迁移成本,但是实测下来迁移成本很低。
OpenCode 可以直接读取ClaudeCode现有的 Skill。只需要在 TUI 界面配置好 API 和 Key,然后在终端里直接和 AI 对话,让它自己把之前的 MCP 服务安装到 OpenCode 目录下即可。
最近手头订阅了智谱 GLM 和 MiniMax 的 Coding Plan。但在实际使用中,遇到一个极其蛋疼的资源错配问题:GLM 不够用,MiniMax用不完
1. 遇到的问题
之前我使用的是 Claude Code,为了充分利用两个coding plan
计划是用 NewAPI 做一层套壳路由,在不同的 Agent 任务中配置不同的模型,实现自动分流。但实操下来完全不可行: 一旦触发了官方 API 的 429 Rate Limit(并发或限流报错),Claude Code 会直接将连接降级为非流式(Non-streaming)。
并且非流式的响应速度慢得令人发指,需要 100s 到 300s 才能返回一次内容。这时候终端界面就跟死机了一样卡在那里,并且在后台一直重试。如图:
image779×600 36.2 KB
深挖根因分析: 这大概率是协议格式背的锅。Claude Code 底层强制使用 Anthropic 的专属 XML 格式。当流式传输中断或报错时,模型吐出的 XML 标签损坏,导致没有返回 CC 期待的正确格式。CC 客户端的底层逻辑误以为是网络波动,就会一直重试,最终演变成死循环。
2. 解决思路
为了根治这个底层的协议病,我迁移到了OpenCode。
它原生支持 OpenAI 格式。 没有了强扭的 Anthropic 格式转换,API 429会自动重试,而不是转化成非流。
我之前不愿意更换工具的原因是担心迁移成本,但是实测下来迁移成本很低。
OpenCode 可以直接读取ClaudeCode现有的 Skill。只需要在 TUI 界面配置好 API 和 Key,然后在终端里直接和 AI 对话,让它自己把之前的 MCP 服务安装到 OpenCode 目录下即可。

