【论文工程落地】Meta-Harness 工程落地实践研究

2026-04-11 08:321阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

arxiv.org

Meta-Harness: End-to-End Optimization of Model Harnesses

偶然了解到了关于Harness的一篇研究论文，斯坦福大学（Stanford University）的研究团队于3月30日提出，其中核心理念是对于Agent编排环境 Harness Engineering 不仅需要搭建，还需要 自动化地搜索、发现和优化整个 harness 代码，使之在目标任务上表现更好。
自己有点想法，于是就有了以下这个开源项目，这几天搓了一个框架出来，目标是建立一个通用的自动化Harness评估框架，旨在能应用在不同领域不同任务中持续优化固定的工作流，举几个场景的例子：

应用层的持续优化：openclaw等智能体的日常自动化运营，比如网站爬取或者信息分析，同一目标的不同实现形式，使用的skills不同，工具方式不同，其中的成功率和成本是不一样的，这种情况通过自动化评估框架，给出不同方案的成功率，成本的比对，来持续优化固定的工作流。
常用工作流的深度优化：代码索引工具有不同的索引方式，实现算法不同，索引时的参数不同，比如chunk参数、topk参数等，是否能通过调整参数，甚至于调整索引机制来保证对于特定的工作流有最优的效果。

落地经验分享（个人观点）：
1.方向没问题，当前对于herness环境的持续优化会是后续关注的方向
2.通用的优化框架覆盖面太广，个人需要投入极大的精力，而且实际落地具体场景需要深度垂类适配
3.适用于已经稳定的工作流，从1到100的项目，去卷运行效率以及实现细节

github.com

GitHub - codefromkarl/meta-harness: Meta-Harness is a reusable experimental platform...

Meta-Harness is a reusable experimental platform designed for Agent/Harness workflows, providing an integrated “observe → evaluate → optimize → compare” loop for managing, optimizing, and evaluating execution flows, candidate variants, and harness modifications.

以上是本人的一些想法以及可能落地的场景，场景是无限的，方法是通用的，如果有更好的想法或者可能存在的问题，欢迎沟通交流。

网友解答：

--【壹】--： yuanzhi:

1.方向没问题，当前对于herness环境的持续优化会是后续关注的方向
2.通用的优化框架覆盖面太广，个人需要投入极大的精力，而且实际落地具体场景需要深度垂类适配

佬打错字了hh

第二点我是非常非常认同的，通用架构其实就是啥也能干但是调用工具能力、subagent的通信效率等等，都不是太好，针对业务场景做垂类优化是非常非常必要的。不过可能也不一定需要改架构，像openclaw这种工具有一个优于cc、codex等agent cli的点就是可以持久化，通过文档在harness system做针对业务的垂直优化导向，这样操作门口更低。

不过现在好像也有项目可以让agent cli通过文档实现持久化了。

--【贰】--：

比较典型的就是hermes agent，他里面有涉及到逐步优化自我工作流的内容，其实和论文的思想是不谋而合的，只是hermes agent也只是停留在记忆层，没有扩展到所有层面

--【叁】--：

以后token越来越贵的情况下，这些对执行层的效率优化应该也会受重视，毕竟实际投入一个产品的运营，必定是要考虑成本的，不只是费用，还有时间，这个等我自己有产品再提上日程看看怎么应用到具体项目里。

--【肆】--：

是的，现在这些优化主要还是在记忆层，因为修改记忆层的操作成本和维护成本是最低的。但是，这也可能会增加后续的启动开销和运用开销，降低通信效率。

标签：人工智能软件开发开源推广

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

arxiv.org

Meta-Harness: End-to-End Optimization of Model Harnesses

应用层的持续优化：openclaw等智能体的日常自动化运营，比如网站爬取或者信息分析，同一目标的不同实现形式，使用的skills不同，工具方式不同，其中的成功率和成本是不一样的，这种情况通过自动化评估框架，给出不同方案的成功率，成本的比对，来持续优化固定的工作流。
常用工作流的深度优化：代码索引工具有不同的索引方式，实现算法不同，索引时的参数不同，比如chunk参数、topk参数等，是否能通过调整参数，甚至于调整索引机制来保证对于特定的工作流有最优的效果。

github.com

GitHub - codefromkarl/meta-harness: Meta-Harness is a reusable experimental platform...

以上是本人的一些想法以及可能落地的场景，场景是无限的，方法是通用的，如果有更好的想法或者可能存在的问题，欢迎沟通交流。

网友解答：

--【壹】--： yuanzhi:

1.方向没问题，当前对于herness环境的持续优化会是后续关注的方向
2.通用的优化框架覆盖面太广，个人需要投入极大的精力，而且实际落地具体场景需要深度垂类适配

佬打错字了hh

不过现在好像也有项目可以让agent cli通过文档实现持久化了。

--【贰】--：

--【叁】--：

--【肆】--：

标签：人工智能软件开发开源推广

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

Meta-Harness: End-to-End Optimization of Model Harnesses

GitHub - codefromkarl/meta-harness: Meta-Harness is a reusable experimental platform...

相关推荐

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

Meta-Harness: End-to-End Optimization of Model Harnesses

GitHub - codefromkarl/meta-harness: Meta-Harness is a reusable experimental platform...

相关推荐