Open Computer Use:Codex Computer Use开源版本

2026-04-29 10:103阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

周五Codex发布Background Computer Use的能力,Software.Inc原班人马做了一些产品力的支持,整体非常惊艳,花了一天的时间分析复刻开源,下面这篇文章是整个过程的分享,或许可以给各位佬提供一点AI时代我们应该如何继续保持热爱去解决问题的思路

项目在:GitHub - iFurySt/open-codex-computer-use: 👾 Open Computer Use – Open-Source Alternative to Codex Computer Use · GitHub


AI时代改变的只是解决问题的方法,但是Geek或者说解决问题的人,依然是不变的。

今天就借助这两天做Open Computer Use的经历来聊聊这个。

背景是周五OpenAI发了一片文章https://openai.com/index/codex-for-almost-everything/,然后Codex APP也更新了,其中Background Computer Use,着实让我和我的小伙伴震惊了,我们对于其带来的非抢占式Computer Use和那个灵动又自然的鼠标样式深深震撼了。在此之前我们的认知都是Connectors(比如Gmail之类的)+GUI(鼠标和键盘)去实现的Computer Use。但是OAI还是交出了一份牛逼的作业。

我们花了一天的时间分析和复刻,成功实现并开源了这个版本,对外通过MCP的方式可以给到所有的AI Agent去直接拥有非抢占式Computer Use的能力,录屏丢油管了:

这一版我们把功能性的都做掉了,也就是open-computer-use可以无缝的替换掉官方的computer-use,除了那个灵动的鼠标样式。我们先来说说这个过程,记得是早上11点开始处理,到凌晨2点正式发掉,差不多12个小时的时间,我们完成了这个曾经几乎不可能完成的。这背后的故事,我有话要说

解决问题的原始冲动

回顾ChatGPT发布前的年代,从学生时代起,捣鼓就成了主旋律,也是我一直在说的,just for fun,也正是这样,就算把自己的喜好玩成了自己的职业,内核一直没有变化过,就是发现问题,尝试解决,最后获得满足和喜悦。和玩游戏或者刷短视频在本质上没有太大的区别,都是人在满足自身的生化需求

但是过程还是有一定的差异的。我们会分析问题,收集信息,解决问题,验证结果并交付,整个过程可以按部就班,也可以充满了各种奇思妙想。

回到09年的时光,那时候除了灰鸽子、肉鸡之类的流行的东西以外,还有二进制逆向也很火,加密混淆脱壳这些字眼能勾起不少的回忆,还记得当时为了能逆向一个二进制,研究各种脱壳、汇编和OllyDbg等等,对着枯燥无味的界面津津有味的调试

image969×713 252 KB

回忆杀一波。再加上后来做安全,攻防更加对于解决(未知)问题的能力提出了新的视角。虽然我很菜,但是我学到了很多,不是工具使用技巧,而是那个思想。

现在仔细想想,其实也不是那个时间培养的所有的这些习惯和能力,我能回忆起更加老的经历,似乎从小就喜欢用自己感悟的野家拳去整活,不喜欢从寻常路,这个内核一直跟随着我,直到今天

就好像Logan昨天repost了他在前年Devin刚出来时写的文章附带的那个核心观点:

It’s been two years since I wrote this article, and the premise is still true: software engineers are paid to solve problems. Coding is just a tool to do so.

image1276×1200 195 KB

如果有人觉得AI的Coding能力可以抬走自己,那其实只是把自己当作一个Coder。有2个方向可以聊:

  1. 从AI所有的角度思考,确实可以抬走自己,而不是因为Coding
  2. 把自己当作解决问题的人,或者提出解决方案的人,那AI的Coding能力,只是其中很小的一部分

这也是为什么我们会很兴奋的在一天内把这个东西搞定的原因,因为我们都保留了解决问题的原始冲动,而且AI为我们提供了更加强大的军火库,能阻碍我们的,只有我们的思维。

打破一切的墙

首先就是执行,也是一样的方法,在开始之前,我们需要足够的信息支撑我们(或者AI)的下一步行动。那我们就从我们想要的这个开始。

我依然选择从我们沉淀出来的harness-template开始,作为一个template开启一个新的repo,好处是不再需要额外写什么东西了,直接拉过来用,AI在分析和执行过程中会持续把一些内容沉淀到这个repo里的docs里,这何尝不是Karpathy提出的LLM Wiki呢?

其实我已经不知道一开始是如何发掘的,就是自然而然的,我们分析出了Codex APP是靠着一个独立的MCP服务来实现Computer Use的,在这个位置~/.codex/plugins/cache/openai-bundled/computer-use/1.0.750/Codex Computer Use.app

image1650×612 62.5 KB

小小的26.5MB,承载了这个牛逼的功能,不仅感到欣喜,因为分析它的工作量不会特别大。后来我们进一步分析出其中有个Client服务SkyComputerUseClient ,然后我们就打算开始了,我已经不记得了,但是好在我们有template

image1920×1200 403 KB

翻看下历史记录,可以很明确的知道,我们一开始就是让Codex去帮忙分析这两个,然后内容不断落到了这个repo里了。期间并行的几个session都在做不通的工作,关于Codex Computer Use的全貌也开始慢慢浮现了:

  • 基于Swift写的。知道这个后,我们也直接用swift实现(还记得以前学swift的艰难,现在AI分分钟写完)
  • 整体对外是MCP提供的,有9个工具。知道后直接复刻
  • 原理是通过Accessibility(AX)去和UI树交互,从而达到可以在后台与APP交互,并附带截图回来做多模态推理下一个Action。在AX不行的时候会回推到osascript(Apple script),甚至是鼠标操作。

一开始我们并不打算直接提供MCP,这就是神奇所在。Usoon上完厕所回来跟我说,我们应该直接做一个MCP服务,听完他解释的,我立马表示认可,这或许就是人类的蜂巢智慧,一个人再牛逼,也永远有偏见。

一开始我们是通过让codex将他上下文里的9个工具的描述和参数输出,实际上是有点出入的,不是100%严格对齐的,后来我们直接给codex配齐了mitmdump,然后让其调用自己的codex去实现抓包dump,里面有大量的system prompt和tools,一下就能严格获取描述和参数定义。

image1920×1200 224 KB

这就是CLI的魅力,套娃获取,后续我们对比评测也是走了一样的方式,query里明确指定叫他走computer-use或者走open-computer-use去做任务,就能达到对比并且dump过程得到数据,这个就是eval和改进最需要的东西!

在忙碌之余,我甚至还拉了一个独立的session,叫他直接设计LOGO,通过直接生成几份SVG,往来几下,就得到了一个我们要的LOGO了(现在看来,回头要换一下那个鼠标,换成无柄的)

image1920×1200 171 KB

image1876×1260 107 KB

ffmpeg/magick之类的工具用得比谁都溜,而且拥有多模态能力,自己可以验收结果,这点非常舒服

在往后其实是对工具执行结果做一个校验,一开始是通过让codex对computer-use的9个工具分别做3个调用输出samples来迭代,后来发现这样其实也不太严格对齐,因为又单独开了一个独立的session,去分析为什么不能通过mcp client直接调用Codex Computer Use,本质上它就是一个符合MCP协议的,前面试了一下一连上进程就死。这次分析发现,实际上是因为SkyComputerUseClient只认同样签名的父进程调用,因为我们让Codex用go直接拉一个cli,通过一定的手段直接吃Codex app的签名过去,顺利执行了,现在我们就拥有了通过CLI执行官方MCP的能力了。

有了这个能力后,可以非常方便的让Codex去校验两边的输入输出做对齐了,这也是经常在实践中遇到的问题,当AI一直解决不了一个问题的时候,你叫他再试试,努力什么的都没用,因为他缺少你想要的那个东西的相关上下文,因此能提供上下文给AI,是人的责任和义务,也是最终AI能走到什么地步的关键。(这个贯穿在这篇文章或者说这次整活的全过程)

至此我们的功能性都解决了, 其他是给流程和丝滑度加分的产品力。因为是一个独立的服务(APP),因此需要单独获取Accessibility和Screen & System Audio Recording的权限,所以为了体验好,OpenAI借助Software.inc(被前者收购了)的能力,做了一个体验超级丝滑的浮窗,只要拖动就行,这个东西也花费了我们一点时间去调试和改造,但是效果还是很棒的(具体参见YouTube里的录屏)

image1920×1309 223 KB

以及发布到npmjs,通过npm i -g open-computer-use就能一键安装,这些全都是AI做的,给一个gh,帮忙点击一些东西就完事了。

image1920×1317 193 KB

还包括一键安装到codex的mcp或者codex.app的plugin,也包装了plugin。方便一键启用,而不需要复制json之类的去对应的配置里配置。这些都是丝滑的体现

后来的迭代中,我们直接用了自己的open-computer-use做dog fooding,结果是非常丝滑,很有效,功能性上和官方的没啥差别了。

最后就是传统艺能了,录屏和剪辑,问AI要了音频网站,随便捞了一个配乐,至此这个开源项目就可以发布了。

但是故事到此还没结束,功能性满足之后,我们还是放不下那个鼠标,到X上逛了一下发现Software.inc的Ari发的:

https://x.com/arix/status/2044842282977993178

他们是3个人实现的这个,我就把视频下载下来,丢给codex去抽帧分析,开始了单独实现一个StandaloneCursorLab的项目,几个小时后,我们有了一个还算过得去的初始版本:

image1920×1351 113 KB

这个版本还是调优过的,也让codex去找一些相关的paper和开源项目做参考和借鉴,里面最关键的就是曲线的绘制和选择以及cursor移动速度的控制。

就这个版本直接上,其实是没问题的,但是还是没有刻画出原版的那种灵动的感觉!我又让grok帮忙基于那个推文去挖掘一下信息,看看能否找到一些开源的方案,

image1352×3564 652 KB
image1432×3590 578 KB

只能整体从他们的推文和其他的评论里推断出一些关键字,其中:

calculates natural and aesthetic motion paths

是我最想要的,但是计算出几个都不是很理想。然后我又新开了一个独立的session,开始逆向工程,因为我想要的一切算法都在二进制里,然后就看到了这些画面:

image1724×1524 247 KB
image1738×1512 307 KB
image1920×1039 229 KB
image1730×1504 250 KB

不敢想一个人要去逆向分析这些东西,需要耗费多久?AI就可以自主的去完成,然后实现并验证。

这部分还在WIP,预期今天就能release一版不错的效果了
screenshot-20260420-1135381920×1506 76.9 KB

尾声

一段小旅程,也是一段奇幻冒险。

想象力和行动加起来,是一个很厉害的组合能力,在畅想诗和远方的同时,也能稳稳把住方向盘,用力踩油门。

网友解答:
--【壹】--:

mcp不太容易管理,因为商业应用是给普通用户用的,不过这种插件暂时没想到太好的办法,也不可能在云端跑。


--【贰】--:

感觉佬的这个文章的想法才是这个文章的核心,一份热爱探索和求真的心还有一个能利用一切工具的能力,AI时代缺少是能灵活运用工具的人,佬的这篇文章受益匪浅


--【叁】--:

pi 有 MCP 扩展 GitHub - nicobailon/pi-mcp-adapter: Token-efficient MCP adapter for Pi coding agent · GitHub

用这个应该就可以


--【肆】--:

太牛了确实,未来已来,还没用上佬就开源了


--【伍】--:

惊人的内容量,佬对于这个研究的这么透彻,去收藏一波,看看实用性


--【陆】--:

image1066×1194 92.5 KB

深度好文,忍不住要打赏,仔细看完了,同样是 AI,在不同人手里发挥出来的能量真的差别很大,始终贯穿全局的核心思路【能提供上下文给 AI,是人的责任和义务,也是最终 AI 能走到什么地步的关键】也是对我这种持有,坚持人在回路利用 AI 的人来说,价值观上共鸣。
感谢感谢~


--【柒】--:

支持大佬,能兼容一下pi框架吗,这样就自由了


--【捌】--:

很喜欢这样的文章,好像L站很久没出现过这样的文章了?条理思路清晰,授人以渔。


--【玖】--:

好奇这个开源版本的 computer use 对于采用非标准控件的 gui 程序支持怎么样? 尝试用官方的的 computer use 去帮我操纵 Matlab 用鼠标生成一个 simulink 模型,效果似乎不是很好


--【拾】--:

不是 L站的佬到底是啥样测存在啊 这也能行


--【拾壹】--:

看佬这思路绝了,我可以理解是吧Open ai的computer use做成了mcp对接其他的例如opencode里面用?刚好想体验下这个 computer use


--【拾贰】--:

泰厉害了,膜拜下,向大佬的思路学习。瑞斯拜


--【拾叁】--:

佬友的解决问题思路太棒了,狠狠学习!!!


--【拾肆】--: Leo:

能提供上下文给 AI,是人的责任和义务,也是最终 AI 能走到什么地步的关键

这句话放在 AI 的认知回路里面,是突破次元壁的存在


--【拾伍】--:

太厉害了,学习一下,mark mair两下


--【拾陆】--:

一个真正有用的东西,但是可能会被国内某些“自研”的公司借鉴过去


--【拾柒】--:

大呼,NB,这个真是太厉害,如果再放进龙虾里面,不敢想,不敢想


--【拾捌】--:

这思路很有价值啊,太厉害了,学习一下,mark


--【拾玖】--:

windows现在的地位真是狗都不如了,

问题描述:

周五Codex发布Background Computer Use的能力,Software.Inc原班人马做了一些产品力的支持,整体非常惊艳,花了一天的时间分析复刻开源,下面这篇文章是整个过程的分享,或许可以给各位佬提供一点AI时代我们应该如何继续保持热爱去解决问题的思路

项目在:GitHub - iFurySt/open-codex-computer-use: 👾 Open Computer Use – Open-Source Alternative to Codex Computer Use · GitHub


AI时代改变的只是解决问题的方法,但是Geek或者说解决问题的人,依然是不变的。

今天就借助这两天做Open Computer Use的经历来聊聊这个。

背景是周五OpenAI发了一片文章https://openai.com/index/codex-for-almost-everything/,然后Codex APP也更新了,其中Background Computer Use,着实让我和我的小伙伴震惊了,我们对于其带来的非抢占式Computer Use和那个灵动又自然的鼠标样式深深震撼了。在此之前我们的认知都是Connectors(比如Gmail之类的)+GUI(鼠标和键盘)去实现的Computer Use。但是OAI还是交出了一份牛逼的作业。

我们花了一天的时间分析和复刻,成功实现并开源了这个版本,对外通过MCP的方式可以给到所有的AI Agent去直接拥有非抢占式Computer Use的能力,录屏丢油管了:

这一版我们把功能性的都做掉了,也就是open-computer-use可以无缝的替换掉官方的computer-use,除了那个灵动的鼠标样式。我们先来说说这个过程,记得是早上11点开始处理,到凌晨2点正式发掉,差不多12个小时的时间,我们完成了这个曾经几乎不可能完成的。这背后的故事,我有话要说

解决问题的原始冲动

回顾ChatGPT发布前的年代,从学生时代起,捣鼓就成了主旋律,也是我一直在说的,just for fun,也正是这样,就算把自己的喜好玩成了自己的职业,内核一直没有变化过,就是发现问题,尝试解决,最后获得满足和喜悦。和玩游戏或者刷短视频在本质上没有太大的区别,都是人在满足自身的生化需求

但是过程还是有一定的差异的。我们会分析问题,收集信息,解决问题,验证结果并交付,整个过程可以按部就班,也可以充满了各种奇思妙想。

回到09年的时光,那时候除了灰鸽子、肉鸡之类的流行的东西以外,还有二进制逆向也很火,加密混淆脱壳这些字眼能勾起不少的回忆,还记得当时为了能逆向一个二进制,研究各种脱壳、汇编和OllyDbg等等,对着枯燥无味的界面津津有味的调试

image969×713 252 KB

回忆杀一波。再加上后来做安全,攻防更加对于解决(未知)问题的能力提出了新的视角。虽然我很菜,但是我学到了很多,不是工具使用技巧,而是那个思想。

现在仔细想想,其实也不是那个时间培养的所有的这些习惯和能力,我能回忆起更加老的经历,似乎从小就喜欢用自己感悟的野家拳去整活,不喜欢从寻常路,这个内核一直跟随着我,直到今天

就好像Logan昨天repost了他在前年Devin刚出来时写的文章附带的那个核心观点:

It’s been two years since I wrote this article, and the premise is still true: software engineers are paid to solve problems. Coding is just a tool to do so.

image1276×1200 195 KB

如果有人觉得AI的Coding能力可以抬走自己,那其实只是把自己当作一个Coder。有2个方向可以聊:

  1. 从AI所有的角度思考,确实可以抬走自己,而不是因为Coding
  2. 把自己当作解决问题的人,或者提出解决方案的人,那AI的Coding能力,只是其中很小的一部分

这也是为什么我们会很兴奋的在一天内把这个东西搞定的原因,因为我们都保留了解决问题的原始冲动,而且AI为我们提供了更加强大的军火库,能阻碍我们的,只有我们的思维。

打破一切的墙

首先就是执行,也是一样的方法,在开始之前,我们需要足够的信息支撑我们(或者AI)的下一步行动。那我们就从我们想要的这个开始。

我依然选择从我们沉淀出来的harness-template开始,作为一个template开启一个新的repo,好处是不再需要额外写什么东西了,直接拉过来用,AI在分析和执行过程中会持续把一些内容沉淀到这个repo里的docs里,这何尝不是Karpathy提出的LLM Wiki呢?

其实我已经不知道一开始是如何发掘的,就是自然而然的,我们分析出了Codex APP是靠着一个独立的MCP服务来实现Computer Use的,在这个位置~/.codex/plugins/cache/openai-bundled/computer-use/1.0.750/Codex Computer Use.app

image1650×612 62.5 KB

小小的26.5MB,承载了这个牛逼的功能,不仅感到欣喜,因为分析它的工作量不会特别大。后来我们进一步分析出其中有个Client服务SkyComputerUseClient ,然后我们就打算开始了,我已经不记得了,但是好在我们有template

image1920×1200 403 KB

翻看下历史记录,可以很明确的知道,我们一开始就是让Codex去帮忙分析这两个,然后内容不断落到了这个repo里了。期间并行的几个session都在做不通的工作,关于Codex Computer Use的全貌也开始慢慢浮现了:

  • 基于Swift写的。知道这个后,我们也直接用swift实现(还记得以前学swift的艰难,现在AI分分钟写完)
  • 整体对外是MCP提供的,有9个工具。知道后直接复刻
  • 原理是通过Accessibility(AX)去和UI树交互,从而达到可以在后台与APP交互,并附带截图回来做多模态推理下一个Action。在AX不行的时候会回推到osascript(Apple script),甚至是鼠标操作。

一开始我们并不打算直接提供MCP,这就是神奇所在。Usoon上完厕所回来跟我说,我们应该直接做一个MCP服务,听完他解释的,我立马表示认可,这或许就是人类的蜂巢智慧,一个人再牛逼,也永远有偏见。

一开始我们是通过让codex将他上下文里的9个工具的描述和参数输出,实际上是有点出入的,不是100%严格对齐的,后来我们直接给codex配齐了mitmdump,然后让其调用自己的codex去实现抓包dump,里面有大量的system prompt和tools,一下就能严格获取描述和参数定义。

image1920×1200 224 KB

这就是CLI的魅力,套娃获取,后续我们对比评测也是走了一样的方式,query里明确指定叫他走computer-use或者走open-computer-use去做任务,就能达到对比并且dump过程得到数据,这个就是eval和改进最需要的东西!

在忙碌之余,我甚至还拉了一个独立的session,叫他直接设计LOGO,通过直接生成几份SVG,往来几下,就得到了一个我们要的LOGO了(现在看来,回头要换一下那个鼠标,换成无柄的)

image1920×1200 171 KB

image1876×1260 107 KB

ffmpeg/magick之类的工具用得比谁都溜,而且拥有多模态能力,自己可以验收结果,这点非常舒服

在往后其实是对工具执行结果做一个校验,一开始是通过让codex对computer-use的9个工具分别做3个调用输出samples来迭代,后来发现这样其实也不太严格对齐,因为又单独开了一个独立的session,去分析为什么不能通过mcp client直接调用Codex Computer Use,本质上它就是一个符合MCP协议的,前面试了一下一连上进程就死。这次分析发现,实际上是因为SkyComputerUseClient只认同样签名的父进程调用,因为我们让Codex用go直接拉一个cli,通过一定的手段直接吃Codex app的签名过去,顺利执行了,现在我们就拥有了通过CLI执行官方MCP的能力了。

有了这个能力后,可以非常方便的让Codex去校验两边的输入输出做对齐了,这也是经常在实践中遇到的问题,当AI一直解决不了一个问题的时候,你叫他再试试,努力什么的都没用,因为他缺少你想要的那个东西的相关上下文,因此能提供上下文给AI,是人的责任和义务,也是最终AI能走到什么地步的关键。(这个贯穿在这篇文章或者说这次整活的全过程)

至此我们的功能性都解决了, 其他是给流程和丝滑度加分的产品力。因为是一个独立的服务(APP),因此需要单独获取Accessibility和Screen & System Audio Recording的权限,所以为了体验好,OpenAI借助Software.inc(被前者收购了)的能力,做了一个体验超级丝滑的浮窗,只要拖动就行,这个东西也花费了我们一点时间去调试和改造,但是效果还是很棒的(具体参见YouTube里的录屏)

image1920×1309 223 KB

以及发布到npmjs,通过npm i -g open-computer-use就能一键安装,这些全都是AI做的,给一个gh,帮忙点击一些东西就完事了。

image1920×1317 193 KB

还包括一键安装到codex的mcp或者codex.app的plugin,也包装了plugin。方便一键启用,而不需要复制json之类的去对应的配置里配置。这些都是丝滑的体现

后来的迭代中,我们直接用了自己的open-computer-use做dog fooding,结果是非常丝滑,很有效,功能性上和官方的没啥差别了。

最后就是传统艺能了,录屏和剪辑,问AI要了音频网站,随便捞了一个配乐,至此这个开源项目就可以发布了。

但是故事到此还没结束,功能性满足之后,我们还是放不下那个鼠标,到X上逛了一下发现Software.inc的Ari发的:

https://x.com/arix/status/2044842282977993178

他们是3个人实现的这个,我就把视频下载下来,丢给codex去抽帧分析,开始了单独实现一个StandaloneCursorLab的项目,几个小时后,我们有了一个还算过得去的初始版本:

image1920×1351 113 KB

这个版本还是调优过的,也让codex去找一些相关的paper和开源项目做参考和借鉴,里面最关键的就是曲线的绘制和选择以及cursor移动速度的控制。

就这个版本直接上,其实是没问题的,但是还是没有刻画出原版的那种灵动的感觉!我又让grok帮忙基于那个推文去挖掘一下信息,看看能否找到一些开源的方案,

image1352×3564 652 KB
image1432×3590 578 KB

只能整体从他们的推文和其他的评论里推断出一些关键字,其中:

calculates natural and aesthetic motion paths

是我最想要的,但是计算出几个都不是很理想。然后我又新开了一个独立的session,开始逆向工程,因为我想要的一切算法都在二进制里,然后就看到了这些画面:

image1724×1524 247 KB
image1738×1512 307 KB
image1920×1039 229 KB
image1730×1504 250 KB

不敢想一个人要去逆向分析这些东西,需要耗费多久?AI就可以自主的去完成,然后实现并验证。

这部分还在WIP,预期今天就能release一版不错的效果了
screenshot-20260420-1135381920×1506 76.9 KB

尾声

一段小旅程,也是一段奇幻冒险。

想象力和行动加起来,是一个很厉害的组合能力,在畅想诗和远方的同时,也能稳稳把住方向盘,用力踩油门。

网友解答:
--【壹】--:

mcp不太容易管理,因为商业应用是给普通用户用的,不过这种插件暂时没想到太好的办法,也不可能在云端跑。


--【贰】--:

感觉佬的这个文章的想法才是这个文章的核心,一份热爱探索和求真的心还有一个能利用一切工具的能力,AI时代缺少是能灵活运用工具的人,佬的这篇文章受益匪浅


--【叁】--:

pi 有 MCP 扩展 GitHub - nicobailon/pi-mcp-adapter: Token-efficient MCP adapter for Pi coding agent · GitHub

用这个应该就可以


--【肆】--:

太牛了确实,未来已来,还没用上佬就开源了


--【伍】--:

惊人的内容量,佬对于这个研究的这么透彻,去收藏一波,看看实用性


--【陆】--:

image1066×1194 92.5 KB

深度好文,忍不住要打赏,仔细看完了,同样是 AI,在不同人手里发挥出来的能量真的差别很大,始终贯穿全局的核心思路【能提供上下文给 AI,是人的责任和义务,也是最终 AI 能走到什么地步的关键】也是对我这种持有,坚持人在回路利用 AI 的人来说,价值观上共鸣。
感谢感谢~


--【柒】--:

支持大佬,能兼容一下pi框架吗,这样就自由了


--【捌】--:

很喜欢这样的文章,好像L站很久没出现过这样的文章了?条理思路清晰,授人以渔。


--【玖】--:

好奇这个开源版本的 computer use 对于采用非标准控件的 gui 程序支持怎么样? 尝试用官方的的 computer use 去帮我操纵 Matlab 用鼠标生成一个 simulink 模型,效果似乎不是很好


--【拾】--:

不是 L站的佬到底是啥样测存在啊 这也能行


--【拾壹】--:

看佬这思路绝了,我可以理解是吧Open ai的computer use做成了mcp对接其他的例如opencode里面用?刚好想体验下这个 computer use


--【拾贰】--:

泰厉害了,膜拜下,向大佬的思路学习。瑞斯拜


--【拾叁】--:

佬友的解决问题思路太棒了,狠狠学习!!!


--【拾肆】--: Leo:

能提供上下文给 AI,是人的责任和义务,也是最终 AI 能走到什么地步的关键

这句话放在 AI 的认知回路里面,是突破次元壁的存在


--【拾伍】--:

太厉害了,学习一下,mark mair两下


--【拾陆】--:

一个真正有用的东西,但是可能会被国内某些“自研”的公司借鉴过去


--【拾柒】--:

大呼,NB,这个真是太厉害,如果再放进龙虾里面,不敢想,不敢想


--【拾捌】--:

这思路很有价值啊,太厉害了,学习一下,mark


--【拾玖】--:

windows现在的地位真是狗都不如了,