[开源分享] ClaudeChrome - 在浏览器中启动 ClaudeCodex,实现通用智能交互体验
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
ClaudeChrome 介绍
ClaudeChrome_logo2365×448 112 KB
最近在做一个自己工作流需要的工具,随便起了个名叫 ClaudeChrome(也是蹭蹭热度哈哈)。图标也是暴力结合了几家 logo 的主要设计元素,反正权当项目 logo 先用着了。
众所周知 Anthropic 其实已经实现了一个官方的 Claude for Chrome 插件,但是并没有开源,而且之前也只能给 MAX 订阅用户使用(最近因为 CC 的开源风波,听说政策上有调整),所以就打算自己做一个。而且现在很多时候也会用 Codex,所以不如先 build 这样的一个基础实现,后面做定制化,以及支持更多浏览器或者 Agent CLI 都很方便。
一个 Claude 扩展程序,可以让 Claude 在浏览器中代理他们执行操作 Piloting Claude for Chrome
项目 idea 很简单:把 Claude / Codex / Shell 放进 Chrome 侧边栏(Shell 其实现在还没啥用,因为主要靠自行实现的 MCP Server 实现自动页面交互,主要是给未来一些插件脚本手动调用浏览器接口留空),并把每个 session 绑定到一个真实标签页(使用过程中也可以 rebind 标签页)。这样 Agent 看到的就不再只是你手动贴过去的一点信息,而是当前标签页的页面文本、HTML、请求、console 等浏览器上下文。
项目特性如下:
-
在 Chrome side panel 中直接运行 Claude / Codex / Shell
-
每个 pane 绑定一个真实标签页,支持切换和 rebind
-
读取页面内容、HTML、网络请求、控制台、执行 JS 代码、运行 click, scroll 等交互
-
多 workspace / 多 pane 组织视图
还有一个比较重要的点,各个 Agent 都是绑定到本地环境的,所以可以直接让它保存页面信息到本地,或者结合本地的上下文做操作,Agent 的 session 和交互记录之类也都是和正常启动一样保存到本地的。除了 LLM 的 API 调用和浏览器访问,整个链路都是完全在本地运行的,所以比较安全。
如下是一些我录制的应用场景演示,基本上都是一遍过。演示用的是 CC+Opus4.6,Codex 也是能跑的。现在 backbone 模型能力真的很强。
========================================================
由于 LINUX DO 无法显示比较大的 gif,大家可以点击截图查看录制的 demo
========================================================
2048 游戏操作:这个演示聚焦 ClaudeChrome 在 2048 游戏环境中的持续交互能力:它不会停在一次性读取,而是能围绕视觉元素持续进行长链路操作。
Amazon 商品详情收集:这个演示主要展示 ClaudeChrome 的网页爬取能力,包括处理页面跳转和滚动交互的能力,同时会话始终保持绑定在当前浏览器标签页上。
LINUX DO 论坛话题总结:这个演示展示了 ClaudeChrome 在 LINUX DO 页面中爬取论坛内容,并根据用户要求执行 JavaScript 命令的能力。
OpenClaw 展示页风格拟合:这个演示突出 ClaudeChrome 的浏览器扩展能力:它可以模仿现有网站来原生设计相似风格,比传统的手动拷贝样式表更方便,也更准确。
知识摄取与文本选中:这个演示聚焦于与之前 Tapestry 项目的集成:不调用 Tapestry 自带爬虫,也能把页面内容直接写入知识库,同时展示基于页面选中文本触发动作的能力。
更清晰的录制请见项目主页和仓库:
项目主页(请由此查看 demo):
ClaudeChrome | 将智能体能力嵌入浏览器
ClaudeChrome 的形式是一个浏览器扩展:它把 Claude Code、Codex 和 Shell 会话植入 Chrome,使智能体立足于原生页面上下文完成网页抓取、JavaScript 执行、视觉风格拟合、知识库摄取、邮件总结等长链路交互任务。
仓库:
GitHub - NatsuFox/ClaudeChrome: ClaudeChrome - Native browser context awareness...
ClaudeChrome - Native browser context awareness for agents.
目前我在功能和实现上做了比较多的工作,在跨平台上还没有做太多测试,暂时只在 Chrome,以及 MacOS 和 Linux(指在本地启动的 MCP Server)上跑过,不过常理上说应该都支持的。
下一步打算优化下 Agent 对 MCP tools 调用的体验,现在如果不显式说 “标签页” 等表达,Agent 经常不会主动意识到是要在浏览器内操作,在上面的 demo 中也能看到这样的问题。后面我加一些 System Prompt 的预设,告诉 Agent 目前它已经进入了浏览器的领域内。
最后,大家如果因为平台不支持,或者跑起来以后有任何大大小小的问题,随便+强烈欢迎提 issue 和 PR,没有格式之类的要求,只要和项目相关,纯灌水也行。大家能真正用起来,就是项目最大的价值,我会一直维护下去。
如果有实际帮助,欢迎大家点点 Star ,这对我来说非常重要
Tapestry 更新发布
Tapestry_logo1380×752 58.2 KB
顺便也宣传一下之前的 Tapestry。最近 Karpathy 也发表了关于 LLM Wiki 的讨论,其实最初 Tapestry 的定位几乎就是一个简便的 Agent powered 个人知识库,但看起来并没有产生太大的 impact
卡帕西解锁大模型新玩法!构建个人知识库,“大部分Token已经不跑代码了”
显然 ClaudeChrome 可以和 Tapestry 有机结合,将当前在浏览器看的内容直接整合到本地知识库,绕开了对于内置爬虫的需要。我觉得这是一个很不错的组合(自己用着很爽哈哈)。
在首次发布后的一段时间里,已经在细节上做了不少优化,知识库前端效果和实际使用体验上都有了比较大的提升,也专门做了项目主页。后续打算仔细研究一下 Karpathy 提出的架构和范式,将一些有用的 idea 落实到 Tapestry 中。
相关的项目特性更新,基本情况等都写在主页里了,也附上先前在 LINUX DO 的发帖链接,欢迎大家再来关照一下:
LINUX DO 帖子链接:
[开源分享] Tapestry - 基于 Agent Skill Bundle 的网络书签知识库 开发调优大家好!近期我在反复优化 AI 协同工作的体验,想来推广下自己做的小工具 [tapestry_logo] 项目简介 不知道大家有没有这种困扰: 在知乎、HN、Reddit、X 上看到好内容就收藏,结果书签越来越多,根本找不回来 想系统地整理某个技术话题的资料,但手动复制粘贴太累了 保存的链接过段时间就 404 了,或者被作者删了 想把多个平台的讨论串起来看,但每个平台…
项目主页:
Tapestry | AI-Native Web Intelligence and Knowledge Base Skill Bundle
Tapestry 是面向 Agent 的 AI-native web intelligence 与知识库技能包,可抓取多平台内容、规范化 Feed,并将 URL 转化为可搜索、可发布的知识资产。
仓库:
GitHub - NatsuFox/Tapestry: Tapestry - 基于 Agent Skill Bundle 的轻量级书签知识库
Tapestry - 基于 Agent Skill Bundle 的轻量级书签知识库
网友解答:--【壹】--:
感谢支持!您说的很对,这个 extension 设计之初,其实正是为了页面调试(包括一些接口逆向)之用。浏览器扩展的权限和能力范围很大,基本对于所有能看到的,都可以交互到。所以这种范式的应用场景应该是很广阔的。
--【贰】--:
前排看看。有点意思
--【叁】--:
厉害,在插件里面调用mcp,插件能拿的api都可以拿到(当前还没有全拿),也有了mcp 和 在侧边栏直接交互codex/cc的能力
很好的思路
插件能拿的api都给它拿了,核心能力交给CC和CODEX。我们自己开发插件的时候,也不用费尽心思的去写 agent,毕竟,这些AICLI本身能力已经很强了。
--【肆】--:
佬太强了
--【伍】--:
感谢支持!
--【陆】--:
感谢支持!
--【柒】--:
一直想找个厉害的模型来接管浏览器,难道就是这个?
--【捌】--:
之前官方的不开源,只能 MAX 订阅者使用,所以我没有实际用过,不知道能不能用中转 api, resume 本地 session,写入本地文件等等。而且未来可能会出现新的 agent harness,我这个不局限于 claude code,比如现在也支持 codex,而且都是和本地桥接的。
不好意思,我刚似乎看错了,以上是对于 claude for chrome 的比较。
对于 chrome 本身的 MCP,还有类似的 playwright MCP,之前使用 headless browser 时候,对于一些反爬很强的页面比如 Amazon 商品页仍然是失效的,这种 extension 可以所见即所得,避开这些麻烦。而且在终端调用这些 MCP 时候无法看到和活跃页面的交互,这有时正是我们所需要的。
--【玖】--:
感谢大佬。
--【拾】--:
支持开源!
--【拾壹】--:
佬有个问题,下载有点太大了把,是不是把视频也打包进去了
--【拾贰】--:
请问相较于chorme官方的mcp有什么优势呢
--【拾叁】--:
感谢支持!
--【拾肆】--:
不是,我说的是谷歌官方推出的 chrome-devtools-mcp,能让agent实施操纵chorme
--【拾伍】--:
是的哈哈,因为项目主页和用到的 assets 也给包进去了,为了部署 github page。后面单独把这些无关文件分出去
另外,感谢支持!
--【拾陆】--:
这个有意思
--【拾柒】--:
怎么说朋友
--【拾捌】--:
感谢支持!之前测试发现,对于视觉元素很多,缺少简单 api 接口的页面,Agent 交互效果还不是很好,基本是操作一次后就要重新截图理解,以此类推。目前还没有很好的解决办法,可以持续跟踪 GUI Agent 的相关研究。
后面还会进一步集成各路 agent harness,所有配置都和本地同步,所以也可以自由支持各种 backbone model。
--【拾玖】--:
何意味?
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
ClaudeChrome 介绍
ClaudeChrome_logo2365×448 112 KB
最近在做一个自己工作流需要的工具,随便起了个名叫 ClaudeChrome(也是蹭蹭热度哈哈)。图标也是暴力结合了几家 logo 的主要设计元素,反正权当项目 logo 先用着了。
众所周知 Anthropic 其实已经实现了一个官方的 Claude for Chrome 插件,但是并没有开源,而且之前也只能给 MAX 订阅用户使用(最近因为 CC 的开源风波,听说政策上有调整),所以就打算自己做一个。而且现在很多时候也会用 Codex,所以不如先 build 这样的一个基础实现,后面做定制化,以及支持更多浏览器或者 Agent CLI 都很方便。
一个 Claude 扩展程序,可以让 Claude 在浏览器中代理他们执行操作 Piloting Claude for Chrome
项目 idea 很简单:把 Claude / Codex / Shell 放进 Chrome 侧边栏(Shell 其实现在还没啥用,因为主要靠自行实现的 MCP Server 实现自动页面交互,主要是给未来一些插件脚本手动调用浏览器接口留空),并把每个 session 绑定到一个真实标签页(使用过程中也可以 rebind 标签页)。这样 Agent 看到的就不再只是你手动贴过去的一点信息,而是当前标签页的页面文本、HTML、请求、console 等浏览器上下文。
项目特性如下:
-
在 Chrome side panel 中直接运行 Claude / Codex / Shell
-
每个 pane 绑定一个真实标签页,支持切换和 rebind
-
读取页面内容、HTML、网络请求、控制台、执行 JS 代码、运行 click, scroll 等交互
-
多 workspace / 多 pane 组织视图
还有一个比较重要的点,各个 Agent 都是绑定到本地环境的,所以可以直接让它保存页面信息到本地,或者结合本地的上下文做操作,Agent 的 session 和交互记录之类也都是和正常启动一样保存到本地的。除了 LLM 的 API 调用和浏览器访问,整个链路都是完全在本地运行的,所以比较安全。
如下是一些我录制的应用场景演示,基本上都是一遍过。演示用的是 CC+Opus4.6,Codex 也是能跑的。现在 backbone 模型能力真的很强。
========================================================
由于 LINUX DO 无法显示比较大的 gif,大家可以点击截图查看录制的 demo
========================================================
2048 游戏操作:这个演示聚焦 ClaudeChrome 在 2048 游戏环境中的持续交互能力:它不会停在一次性读取,而是能围绕视觉元素持续进行长链路操作。
Amazon 商品详情收集:这个演示主要展示 ClaudeChrome 的网页爬取能力,包括处理页面跳转和滚动交互的能力,同时会话始终保持绑定在当前浏览器标签页上。
LINUX DO 论坛话题总结:这个演示展示了 ClaudeChrome 在 LINUX DO 页面中爬取论坛内容,并根据用户要求执行 JavaScript 命令的能力。
OpenClaw 展示页风格拟合:这个演示突出 ClaudeChrome 的浏览器扩展能力:它可以模仿现有网站来原生设计相似风格,比传统的手动拷贝样式表更方便,也更准确。
知识摄取与文本选中:这个演示聚焦于与之前 Tapestry 项目的集成:不调用 Tapestry 自带爬虫,也能把页面内容直接写入知识库,同时展示基于页面选中文本触发动作的能力。
更清晰的录制请见项目主页和仓库:
项目主页(请由此查看 demo):
ClaudeChrome | 将智能体能力嵌入浏览器
ClaudeChrome 的形式是一个浏览器扩展:它把 Claude Code、Codex 和 Shell 会话植入 Chrome,使智能体立足于原生页面上下文完成网页抓取、JavaScript 执行、视觉风格拟合、知识库摄取、邮件总结等长链路交互任务。
仓库:
GitHub - NatsuFox/ClaudeChrome: ClaudeChrome - Native browser context awareness...
ClaudeChrome - Native browser context awareness for agents.
目前我在功能和实现上做了比较多的工作,在跨平台上还没有做太多测试,暂时只在 Chrome,以及 MacOS 和 Linux(指在本地启动的 MCP Server)上跑过,不过常理上说应该都支持的。
下一步打算优化下 Agent 对 MCP tools 调用的体验,现在如果不显式说 “标签页” 等表达,Agent 经常不会主动意识到是要在浏览器内操作,在上面的 demo 中也能看到这样的问题。后面我加一些 System Prompt 的预设,告诉 Agent 目前它已经进入了浏览器的领域内。
最后,大家如果因为平台不支持,或者跑起来以后有任何大大小小的问题,随便+强烈欢迎提 issue 和 PR,没有格式之类的要求,只要和项目相关,纯灌水也行。大家能真正用起来,就是项目最大的价值,我会一直维护下去。
如果有实际帮助,欢迎大家点点 Star ,这对我来说非常重要
Tapestry 更新发布
Tapestry_logo1380×752 58.2 KB
顺便也宣传一下之前的 Tapestry。最近 Karpathy 也发表了关于 LLM Wiki 的讨论,其实最初 Tapestry 的定位几乎就是一个简便的 Agent powered 个人知识库,但看起来并没有产生太大的 impact
卡帕西解锁大模型新玩法!构建个人知识库,“大部分Token已经不跑代码了”
显然 ClaudeChrome 可以和 Tapestry 有机结合,将当前在浏览器看的内容直接整合到本地知识库,绕开了对于内置爬虫的需要。我觉得这是一个很不错的组合(自己用着很爽哈哈)。
在首次发布后的一段时间里,已经在细节上做了不少优化,知识库前端效果和实际使用体验上都有了比较大的提升,也专门做了项目主页。后续打算仔细研究一下 Karpathy 提出的架构和范式,将一些有用的 idea 落实到 Tapestry 中。
相关的项目特性更新,基本情况等都写在主页里了,也附上先前在 LINUX DO 的发帖链接,欢迎大家再来关照一下:
LINUX DO 帖子链接:
[开源分享] Tapestry - 基于 Agent Skill Bundle 的网络书签知识库 开发调优大家好!近期我在反复优化 AI 协同工作的体验,想来推广下自己做的小工具 [tapestry_logo] 项目简介 不知道大家有没有这种困扰: 在知乎、HN、Reddit、X 上看到好内容就收藏,结果书签越来越多,根本找不回来 想系统地整理某个技术话题的资料,但手动复制粘贴太累了 保存的链接过段时间就 404 了,或者被作者删了 想把多个平台的讨论串起来看,但每个平台…
项目主页:
Tapestry | AI-Native Web Intelligence and Knowledge Base Skill Bundle
Tapestry 是面向 Agent 的 AI-native web intelligence 与知识库技能包,可抓取多平台内容、规范化 Feed,并将 URL 转化为可搜索、可发布的知识资产。
仓库:
GitHub - NatsuFox/Tapestry: Tapestry - 基于 Agent Skill Bundle 的轻量级书签知识库
Tapestry - 基于 Agent Skill Bundle 的轻量级书签知识库
网友解答:--【壹】--:
感谢支持!您说的很对,这个 extension 设计之初,其实正是为了页面调试(包括一些接口逆向)之用。浏览器扩展的权限和能力范围很大,基本对于所有能看到的,都可以交互到。所以这种范式的应用场景应该是很广阔的。
--【贰】--:
前排看看。有点意思
--【叁】--:
厉害,在插件里面调用mcp,插件能拿的api都可以拿到(当前还没有全拿),也有了mcp 和 在侧边栏直接交互codex/cc的能力
很好的思路
插件能拿的api都给它拿了,核心能力交给CC和CODEX。我们自己开发插件的时候,也不用费尽心思的去写 agent,毕竟,这些AICLI本身能力已经很强了。
--【肆】--:
佬太强了
--【伍】--:
感谢支持!
--【陆】--:
感谢支持!
--【柒】--:
一直想找个厉害的模型来接管浏览器,难道就是这个?
--【捌】--:
之前官方的不开源,只能 MAX 订阅者使用,所以我没有实际用过,不知道能不能用中转 api, resume 本地 session,写入本地文件等等。而且未来可能会出现新的 agent harness,我这个不局限于 claude code,比如现在也支持 codex,而且都是和本地桥接的。
不好意思,我刚似乎看错了,以上是对于 claude for chrome 的比较。
对于 chrome 本身的 MCP,还有类似的 playwright MCP,之前使用 headless browser 时候,对于一些反爬很强的页面比如 Amazon 商品页仍然是失效的,这种 extension 可以所见即所得,避开这些麻烦。而且在终端调用这些 MCP 时候无法看到和活跃页面的交互,这有时正是我们所需要的。
--【玖】--:
感谢大佬。
--【拾】--:
支持开源!
--【拾壹】--:
佬有个问题,下载有点太大了把,是不是把视频也打包进去了
--【拾贰】--:
请问相较于chorme官方的mcp有什么优势呢
--【拾叁】--:
感谢支持!
--【拾肆】--:
不是,我说的是谷歌官方推出的 chrome-devtools-mcp,能让agent实施操纵chorme
--【拾伍】--:
是的哈哈,因为项目主页和用到的 assets 也给包进去了,为了部署 github page。后面单独把这些无关文件分出去
另外,感谢支持!
--【拾陆】--:
这个有意思
--【拾柒】--:
怎么说朋友
--【拾捌】--:
感谢支持!之前测试发现,对于视觉元素很多,缺少简单 api 接口的页面,Agent 交互效果还不是很好,基本是操作一次后就要重新截图理解,以此类推。目前还没有很好的解决办法,可以持续跟踪 GUI Agent 的相关研究。
后面还会进一步集成各路 agent harness,所有配置都和本地同步,所以也可以自由支持各种 backbone model。
--【拾玖】--:
何意味?

![[开源分享] ClaudeChrome - 在浏览器中启动 ClaudeCodex,实现通用智能交互体验](/imgrand/qs2uwBfB.webp)