【论文工程落地】Meta-Harness 工程落地实践研究

2026-04-11 08:321阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


arxiv.org

Meta-Harness: End-to-End Optimization of Model Harnesses

偶然了解到了关于Harness的一篇研究论文,斯坦福大学(Stanford University)的研究团队于3月30日提出,其中核心理念是对于Agent编排环境 Harness Engineering 不仅需要搭建,还需要 自动化地搜索、发现和优化整个 harness 代码,使之在目标任务上表现更好。
自己有点想法,于是就有了以下这个开源项目,这几天搓了一个框架出来,目标是建立一个通用的自动化Harness评估框架,旨在能应用在不同领域不同任务中持续优化固定的工作流,举几个场景的例子:

  • 应用层的持续优化:openclaw等智能体的日常自动化运营,比如网站爬取或者信息分析,同一目标的不同实现形式,使用的skills不同,工具方式不同,其中的成功率和成本是不一样的,这种情况通过自动化评估框架,给出不同方案的成功率,成本的比对,来持续优化固定的工作流。
  • 常用工作流的深度优化:代码索引工具有不同的索引方式,实现算法不同,索引时的参数不同,比如chunk参数、topk参数等,是否能通过调整参数,甚至于调整索引机制来保证对于特定的工作流有最优的效果。

落地经验分享(个人观点):
1.方向没问题,当前对于herness环境的持续优化会是后续关注的方向
2.通用的优化框架覆盖面太广,个人需要投入极大的精力,而且实际落地具体场景需要深度垂类适配
3.适用于已经稳定的工作流,从1到100的项目,去卷运行效率以及实现细节

github.com

GitHub - codefromkarl/meta-harness: Meta-Harness is a reusable experimental platform...

Meta-Harness is a reusable experimental platform designed for Agent/Harness workflows, providing an integrated “observe → evaluate → optimize → compare” loop for managing, optimizing, and evaluating execution flows, candidate variants, and harness modifications.

以上是本人的一些想法以及可能落地的场景,场景是无限的,方法是通用的,如果有更好的想法或者可能存在的问题,欢迎沟通交流。

网友解答:
--【壹】--: yuanzhi:

1.方向没问题,当前对于herness环境的持续优化会是后续关注的方向
2.通用的优化框架覆盖面太广,个人需要投入极大的精力,而且实际落地具体场景需要深度垂类适配

佬打错字了hh

第二点我是非常非常认同的,通用架构其实就是啥也能干但是调用工具能力、subagent的通信效率等等,都不是太好,针对业务场景做垂类优化是非常非常必要的。不过可能也不一定需要改架构,像openclaw这种工具有一个优于cc、codex等agent cli的点就是可以持久化,通过文档在harness system做针对业务的垂直优化导向,这样操作门口更低。

不过现在好像也有项目可以让agent cli通过文档实现持久化了。


--【贰】--:

比较典型的就是hermes agent,他里面有涉及到逐步优化自我工作流的内容,其实和论文的思想是不谋而合的,只是hermes agent也只是停留在记忆层,没有扩展到所有层面


--【叁】--:

以后token越来越贵的情况下,这些对执行层的效率优化应该也会受重视,毕竟实际投入一个产品的运营,必定是要考虑成本的,不只是费用,还有时间 ,这个等我自己有产品再提上日程看看怎么应用到具体项目里。


--【肆】--:

是的,现在这些优化主要还是在记忆层,因为修改记忆层的操作成本和维护成本是最低的。但是,这也可能会增加后续的启动开销和运用开销,降低通信效率。