【开源】POS(提示词自动优化流水线)【更新贴】
- 内容介绍
- 文章标签
- 相关推荐
和大模型对话的时候,提示词需要经常更新,可能还要开多个对话优化,并且总感觉还能再优化,所以做了个这个小东西,流水线式的生成高质量提示词。
写在前面
感谢佬友们的支持,175啦!(2026.3.31)
打算下一步优化好底层优化规则之类的时候就去其他平台也发发看啦。
怕之前的贴太长,反而看不到展示图,更新移到这里吧!
原贴: 【开源】提示词自动优化流水线
GitHub - XBigRoad/prompt-optimizer-studio: 可同时输入多个初版提示词,开启多轮自动优化,连续得到高分后得到最终结果。
可同时输入多个初版提示词,开启多轮自动优化,连续得到高分后得到最终结果。
2026.3.31 更新 v0.1.8
1.任务详情页、结果台和轮次区这次整体又收了一轮,运行信息、主要问题、评审建议和分数展示现在更直白,不容易再看到一堆像内部调试残留的说法。
2.round detail 里的分项分数条重做成了新的西瓜主题样式,不只是看高低,也能直接看出 pass / near / miss 这类达标状态。
3.自定义 structured rubric 的支持补完整了。只要评分标准还是可解析的结构化分项格式,就能正常生成各项分数条;如果只是自由文本,就不会再乱猜乱画。
4.历史轮次现在会按当轮的 rubric snapshot 来显示分数条和维度,不会再被你后面改掉的当前 rubric 反向污染。
5.“本轮没有新版本可交接”“请求层失败”“评分器没写出有效摘要”这类情况,这次都改成尽量说真话了,不再用那种偷懒又模糊的统一提示糊过去。
6.任务详情页的加载和轮询也做了软失败收口,单次 fetch 抖动或侧路请求失败时,不会再那么容易把整页直接打空。
7.评审摘要和主要问题里的用户面文案继续做了清理,像95+、threshold、Decision Threshold、高分复核未完成这类内部 gatekeeper 话术,正常使用时不会再直接漏给用户看。
8.provider 兼容链路又补强了一轮。针对 403 / 500 / 503 / EOF / Cloudflare 包装页这类常见请求层故障,recover / fallback 和测试都补得更完整了。
9.GPT-5 高推理链路的 provider-local timeout 这次也做了中等放宽,遇到短时卡顿时更容易在 provider 内部消化掉,不会太早把任务推去 manual review。
10.默认 rubric 的高分校准现在也比之前更严了,像家庭聚餐这类并不复杂但也不该轻易接近满分的任务,不会再那么容易早期就打出夸张高分。
11.评审建议这块的面板、路由和自动采纳链路这次也补齐了,后续把建议加入下一轮引导或长期规则会更顺手。
12.已完成任务现在也支持从最终稿直接 fork 出一个新任务,方便继续沿着当前结果开新分支测试。
13.另外也修复了一些其他 bug。
补一句:这版已经把本地展示链路、rubric/snapshot 链路和主要 provider recover 路径尽量收口了;如果后面还遇到问题,更多也会是上游 provider / auth pool / 外部可用性波动,不太像之前那种明显属于我们自己展示链路没收干净的情况。
2026.3.22 更新 v0.1.7
1.结果台和轮次卡片的文案整体改得更直白了,像“上轮提示词评分”“这版要到下一轮才会评分”这类信息现在更容易看懂了。
2.修复了连续三轮达到阈值后仍继续往下跑的问题,停止逻辑现在按当前产品规则正常收口。
3.修复了满足停止条件但同轮 optimizer 没成功产出新版本时,任务被错误打成 failed 的问题。
4.自动运行中的任务详情里,现在也能调整长期规则了,相关入口和链路更完整。
5.待生效引导现在可以先生成长期规则草稿,再由用户确认保存,不会再和长期规则直接混在一起。
6.结果页里的空白 diagnostics 区块、占位式 MVE 文案、以及过于技术化的提示做了收口,不再那么像“坏掉了但没完全坏”。
7.默认 Skill / Rubric 做了一轮公开版收口,保留当前有效规则,同时移除了内部实验代号和 lineage 标记。
8.继续补强了 OpenAI-compatible 的兼容链路:当网关能力不完整时,模型发现、连接测试和请求回退会更稳。
9.服务端结构治理这次也正式落地了,jobs / runtime / providers / settings / prompt-pack / db / goal-anchor 的模块边界更清晰,并补上了自动化守卫。
10.新增了架构检查和边界验证,后续如果有人又把代码绕回隐式依赖或旧兼容桥接层,会更容易被发现。
11.另外也修复了一些其他 bug。
2026.3.19 更新 v0.1.6
优化了provider的重试策略。系统不再对auth_unavailable和通用INTERNAL_ERROR 这类错误盲目重试,从而减少任务长时间卡在round 0的情况;对于超时、网关异常和网络抖动等瞬时故障,仍会自动重试。
2026.3.18 上午更新 v0.1.5
进一步修正了任务控制室在边界状态下的可读性,让无成绩任务和上游故障都能以更准确、更友好的方式呈现。
2026.3.18 更新 v0.1.4
1.现在所有模型都支持设置推理强度了。
2.首页创建任务时,也可以直接设置推理强度了。
3.任务详情页现在会显示推理强度,不再显示会话了。
4.设置页 / 创建任务 / 任务详情 / API / 数据库之间的运行参数链路补齐了,参数保存和追踪更完整了。
5.分数、失败状态、最佳分数等信息现在显示得更清楚了。
6.修复了一些目标锚点和提示词理解相关的问题。
7.修复了 openai-compatible 网关的兼容问题:当 /chat/completions 不可用时,会自动回退到 /responses。
8.优化了 504 Gateway Timeout、Bad Gateway、Cloudflare 等错误的识别与提示,不再直接展示难懂的原始错误页。
9.当任务已经产出可用结果时,即使后续轮次遇到基础设施故障,也会尽量保留当前结果与进度,不再轻易把整条任务直接打成完全失败。
10.修复了首页投递台收起后无法再次展开、以及页面可能被隐藏层挡住的问题。
11.另外也修复了一些其他 bug。
2026.3.16 更新 v0.1.2
网友解答:1.更新各信息模块的布局。
2.支持全局/单任务修订评分标准了。
3.支持更多模型了。
4.支持设定同时运行项目数量了。(根据自己的设备来调,太多可能会卡顿)
5.支持手动完成/重启任务了。
6.修复了一些其他bug。
7.支持英文显示了。
--【壹】--:
永远的大帅哥
--【贰】--:
搞了个gemini官方的api,哇速度比买的89的codex拼车稳定好多= =,那应该就是上游导致的不稳定了。就是乍眼一看好像没gpt-5.4 xhigh的质量高,不知道chatgpt官方的会不会稳得多。
image1726×748 67.9 KB
--【叁】--:
佬,点星星了,我部署好了,模型api测试也没问题,为啥这块还是不行捏
image1890×945 225 KB
--【肆】--:
等下上传一个更稳定一些的版本你试一下,我木有gemini的api= =,所以其实目前还不是很清楚有没有真正的做到通用其他模型。
--【伍】--:
给佬点个赞 这就试一下
--【陆】--:
start 了,第118个
--【柒】--:
感谢大佬
--【捌】--:
感谢支持,快到200 啦
--【玖】--:
很好的一个思路,优化自己的提示词
--【拾】--:
更新了,这块优化了不少,虽然偶尔还是会这样(主要是用的渠道不稳定导致的)但是会比之前好了很多,而且可以点击继续就好了。
--【拾壹】--:
感谢佬支持,有问题随时反馈
--【拾贰】--:
好滴,我这阵忙完试一下哈
--【拾叁】--:
image1920×741 167 KB
能跑,就是偶尔也会发生你这个问题,然后点击继续就行了,然后我再继续修
--【拾肆】--:
汇报进度:
1、解决多轮优化后过厚导致和评分规则冲突(无法得到最终的结果)。
2、解决了github上新提的两个issue(感谢提出和PR)
3、加了一些功能、删减了一些实际不起作用的模块、优化了排版:
image1920×1211 324 KB
4、修复了一些其他bug
用codex的时候还是得开plan和要求清楚,同一个问题没开plan来来回回改了又出现好多次。
和大模型对话的时候,提示词需要经常更新,可能还要开多个对话优化,并且总感觉还能再优化,所以做了个这个小东西,流水线式的生成高质量提示词。
写在前面
感谢佬友们的支持,175啦!(2026.3.31)
打算下一步优化好底层优化规则之类的时候就去其他平台也发发看啦。
怕之前的贴太长,反而看不到展示图,更新移到这里吧!
原贴: 【开源】提示词自动优化流水线
GitHub - XBigRoad/prompt-optimizer-studio: 可同时输入多个初版提示词,开启多轮自动优化,连续得到高分后得到最终结果。
可同时输入多个初版提示词,开启多轮自动优化,连续得到高分后得到最终结果。
2026.3.31 更新 v0.1.8
1.任务详情页、结果台和轮次区这次整体又收了一轮,运行信息、主要问题、评审建议和分数展示现在更直白,不容易再看到一堆像内部调试残留的说法。
2.round detail 里的分项分数条重做成了新的西瓜主题样式,不只是看高低,也能直接看出 pass / near / miss 这类达标状态。
3.自定义 structured rubric 的支持补完整了。只要评分标准还是可解析的结构化分项格式,就能正常生成各项分数条;如果只是自由文本,就不会再乱猜乱画。
4.历史轮次现在会按当轮的 rubric snapshot 来显示分数条和维度,不会再被你后面改掉的当前 rubric 反向污染。
5.“本轮没有新版本可交接”“请求层失败”“评分器没写出有效摘要”这类情况,这次都改成尽量说真话了,不再用那种偷懒又模糊的统一提示糊过去。
6.任务详情页的加载和轮询也做了软失败收口,单次 fetch 抖动或侧路请求失败时,不会再那么容易把整页直接打空。
7.评审摘要和主要问题里的用户面文案继续做了清理,像95+、threshold、Decision Threshold、高分复核未完成这类内部 gatekeeper 话术,正常使用时不会再直接漏给用户看。
8.provider 兼容链路又补强了一轮。针对 403 / 500 / 503 / EOF / Cloudflare 包装页这类常见请求层故障,recover / fallback 和测试都补得更完整了。
9.GPT-5 高推理链路的 provider-local timeout 这次也做了中等放宽,遇到短时卡顿时更容易在 provider 内部消化掉,不会太早把任务推去 manual review。
10.默认 rubric 的高分校准现在也比之前更严了,像家庭聚餐这类并不复杂但也不该轻易接近满分的任务,不会再那么容易早期就打出夸张高分。
11.评审建议这块的面板、路由和自动采纳链路这次也补齐了,后续把建议加入下一轮引导或长期规则会更顺手。
12.已完成任务现在也支持从最终稿直接 fork 出一个新任务,方便继续沿着当前结果开新分支测试。
13.另外也修复了一些其他 bug。
补一句:这版已经把本地展示链路、rubric/snapshot 链路和主要 provider recover 路径尽量收口了;如果后面还遇到问题,更多也会是上游 provider / auth pool / 外部可用性波动,不太像之前那种明显属于我们自己展示链路没收干净的情况。
2026.3.22 更新 v0.1.7
1.结果台和轮次卡片的文案整体改得更直白了,像“上轮提示词评分”“这版要到下一轮才会评分”这类信息现在更容易看懂了。
2.修复了连续三轮达到阈值后仍继续往下跑的问题,停止逻辑现在按当前产品规则正常收口。
3.修复了满足停止条件但同轮 optimizer 没成功产出新版本时,任务被错误打成 failed 的问题。
4.自动运行中的任务详情里,现在也能调整长期规则了,相关入口和链路更完整。
5.待生效引导现在可以先生成长期规则草稿,再由用户确认保存,不会再和长期规则直接混在一起。
6.结果页里的空白 diagnostics 区块、占位式 MVE 文案、以及过于技术化的提示做了收口,不再那么像“坏掉了但没完全坏”。
7.默认 Skill / Rubric 做了一轮公开版收口,保留当前有效规则,同时移除了内部实验代号和 lineage 标记。
8.继续补强了 OpenAI-compatible 的兼容链路:当网关能力不完整时,模型发现、连接测试和请求回退会更稳。
9.服务端结构治理这次也正式落地了,jobs / runtime / providers / settings / prompt-pack / db / goal-anchor 的模块边界更清晰,并补上了自动化守卫。
10.新增了架构检查和边界验证,后续如果有人又把代码绕回隐式依赖或旧兼容桥接层,会更容易被发现。
11.另外也修复了一些其他 bug。
2026.3.19 更新 v0.1.6
优化了provider的重试策略。系统不再对auth_unavailable和通用INTERNAL_ERROR 这类错误盲目重试,从而减少任务长时间卡在round 0的情况;对于超时、网关异常和网络抖动等瞬时故障,仍会自动重试。
2026.3.18 上午更新 v0.1.5
进一步修正了任务控制室在边界状态下的可读性,让无成绩任务和上游故障都能以更准确、更友好的方式呈现。
2026.3.18 更新 v0.1.4
1.现在所有模型都支持设置推理强度了。
2.首页创建任务时,也可以直接设置推理强度了。
3.任务详情页现在会显示推理强度,不再显示会话了。
4.设置页 / 创建任务 / 任务详情 / API / 数据库之间的运行参数链路补齐了,参数保存和追踪更完整了。
5.分数、失败状态、最佳分数等信息现在显示得更清楚了。
6.修复了一些目标锚点和提示词理解相关的问题。
7.修复了 openai-compatible 网关的兼容问题:当 /chat/completions 不可用时,会自动回退到 /responses。
8.优化了 504 Gateway Timeout、Bad Gateway、Cloudflare 等错误的识别与提示,不再直接展示难懂的原始错误页。
9.当任务已经产出可用结果时,即使后续轮次遇到基础设施故障,也会尽量保留当前结果与进度,不再轻易把整条任务直接打成完全失败。
10.修复了首页投递台收起后无法再次展开、以及页面可能被隐藏层挡住的问题。
11.另外也修复了一些其他 bug。
2026.3.16 更新 v0.1.2
网友解答:1.更新各信息模块的布局。
2.支持全局/单任务修订评分标准了。
3.支持更多模型了。
4.支持设定同时运行项目数量了。(根据自己的设备来调,太多可能会卡顿)
5.支持手动完成/重启任务了。
6.修复了一些其他bug。
7.支持英文显示了。
--【壹】--:
永远的大帅哥
--【贰】--:
搞了个gemini官方的api,哇速度比买的89的codex拼车稳定好多= =,那应该就是上游导致的不稳定了。就是乍眼一看好像没gpt-5.4 xhigh的质量高,不知道chatgpt官方的会不会稳得多。
image1726×748 67.9 KB
--【叁】--:
佬,点星星了,我部署好了,模型api测试也没问题,为啥这块还是不行捏
image1890×945 225 KB
--【肆】--:
等下上传一个更稳定一些的版本你试一下,我木有gemini的api= =,所以其实目前还不是很清楚有没有真正的做到通用其他模型。
--【伍】--:
给佬点个赞 这就试一下
--【陆】--:
start 了,第118个
--【柒】--:
感谢大佬
--【捌】--:
感谢支持,快到200 啦
--【玖】--:
很好的一个思路,优化自己的提示词
--【拾】--:
更新了,这块优化了不少,虽然偶尔还是会这样(主要是用的渠道不稳定导致的)但是会比之前好了很多,而且可以点击继续就好了。
--【拾壹】--:
感谢佬支持,有问题随时反馈
--【拾贰】--:
好滴,我这阵忙完试一下哈
--【拾叁】--:
image1920×741 167 KB
能跑,就是偶尔也会发生你这个问题,然后点击继续就行了,然后我再继续修
--【拾肆】--:
汇报进度:
1、解决多轮优化后过厚导致和评分规则冲突(无法得到最终的结果)。
2、解决了github上新提的两个issue(感谢提出和PR)
3、加了一些功能、删减了一些实际不起作用的模块、优化了排版:
image1920×1211 324 KB
4、修复了一些其他bug
用codex的时候还是得开plan和要求清楚,同一个问题没开plan来来回回改了又出现好多次。

