【分享】AI 自动化测试方案

2026-04-11 14:421阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

用 Claude Code 跑自动化测试时遇到过这种情况吗？生成了一堆测试用例，跑完发现 Token 烧了不少，结果一半是废的——要么断言写错，要么压根定位不到元素。

所以我花了点时间把市面上的 AI 测试方案摸了一遍。就两条路，DOM 解析或者视觉识别，先选一个深耕就行。

DOM

原理没什么花活。DOM 就是浏览器把 HTML 页面变成一棵可以被 JavaScript 随意增删改查的树状对象结构。简单说，你写的 HTML 被浏览器变成了一堆"会动的积木"，这些积木可以用 JavaScript 随便抓、改、删、加。

AI 通过选择器找到这些积木，Playwright 负责点点点。就这样。

推荐工具：agent-browser

这是 Vercel 出的一个专门用于 AI Agent 的浏览器自动化 CLI，支持无头模式，可以不打开浏览器进行测试。

# 安装 CLI npm install -g agent-browser # 安装驱动 agent-browser install # 验证安装 agent-browser open baidu.com # 返回以下内容表示成功 # ✓ 百度一下，你就知道 # https://www.baidu.com/

image1830×1806 329 KB

这条路的好处很直接——Token 消耗低，跑得快，CI/CD 接进去顺滑。

但有个前提：你的 DOM 结构得稳定。

纯视觉

这个思路更直观：将页面截图发送给视觉大模型识别，模型返回下一步操作指令，循环执行直到完成全部任务。

推荐工具：Midscene

这是字节开源的纯视觉测试方案，支持 Web、Android、iOS，兼容多种视觉模型：Gemini、Qwen-VL、Doubao-VL。自然语言写测试目标，AI 自己生成脚本。

但 Token 消耗高。跑一轮测试下来成本不低。而且视觉模型偶尔会出问题。

所以视觉方案更像是补充：DOM 搞不定的场景，比如验证 UI 有没有错位、样式有没有问题，再让视觉上。

ChatGPT AgentMode

这是 ChatGPT 的 AgentMode 功能需要订阅企业版或者 Pro 版本 (team 也可以) 它会启动一个虚拟浏览器访问你要求的网址像真人一样在你的平台浏览、点击按钮、账号登录，要求最后给我详细的测试报告，如果你的网站已经部署到公网上那么就可以使用 Agent Mode 进行测试。

SCR-20260115-g7z1920×1371 153 KB
SCR-20260115-gar1780×346 15.1 KB

缺点是最少需要购买 Team 或者 Pro。

怎么选？

场景	建议
页面结构稳定，预算有限	DOM + Playwright
页面动效多、结构不稳定	视觉方案
想检测布局错位、样式问题	必须视觉，DOM 看不出来
成本敏感	DOM 为主

几个坑提前说

成本控制：先让 AI 生成用例，人审完再跑。不然跑完发现一半用例有问题，Token 白烧了。

CI/CD 集成：配置的时候注意超时设置。视觉方案跑得慢，默认超时可能不够。

自愈能力：市面上很多工具都说支持"自愈"，意思是 UI 改了之后测试脚本能自动调整选择器。实际效果看情况，改个按钮文案能自愈，重构了页面结构还是得手动改。

核心就一句：DOM 打底，视觉补充，别一开始就 all in 最贵的方案。

有实践经验的欢迎评论区交流。

相关链接：

Midscene：https://midscenejs.com
agent-browser：GitHub - vercel-labs/agent-browser: Browser automation CLI for AI agents
Playwright：https://playwright.dev
test-cases Skill：myclaude/skills/test-cases/SKILL.md at master · cexll/myclaude · GitHub

网友解答：

--【壹】--： 星纬智联技术:

image1830×1806 329 KB

佬，我看到你的 CC 可以直接调用 agent-browser，是只需要安装依赖就好了吗，还是说有什么 MCP 工具之类的

--【贰】--：

游戏的AI测试有什么方案吗？

--【叁】--：

分享的很好，不要一开始就搞all in，太有体会了！

--【肆】--：

客户端开发的UI有什么好的闭环测试方案吗

--【伍】--：

哇哦，干货！

--【陆】--：

这种就需要视觉模型了

--【柒】--：

感谢分享

--【捌】--：

猴哥牛的！

--【玖】--：

是的直接安装的 agent-browser cli

--【拾】--：

感谢大佬！

--【拾壹】--：

马克一下

--【拾贰】--：

感谢分享！

--【拾叁】--：

感谢支持

--【拾肆】--：

太棒了，学习一下

--【拾伍】--：

感谢佬友

--【拾陆】--：

这就是我的盲区了，不太清楚，如果有对外提供的 API 类似 dom 也是可以封装的

--【拾柒】--：

感谢分享

--【拾捌】--：

为什么没有用 chrome-devtools，出于什么原因呢？

--【拾玖】--：

谢谢佬分享

标签：人工智能

问题描述：

所以我花了点时间把市面上的 AI 测试方案摸了一遍。就两条路，DOM 解析或者视觉识别，先选一个深耕就行。

DOM

AI 通过选择器找到这些积木，Playwright 负责点点点。就这样。

推荐工具：agent-browser

这是 Vercel 出的一个专门用于 AI Agent 的浏览器自动化 CLI，支持无头模式，可以不打开浏览器进行测试。

image1830×1806 329 KB

这条路的好处很直接——Token 消耗低，跑得快，CI/CD 接进去顺滑。

但有个前提：你的 DOM 结构得稳定。

纯视觉

这个思路更直观：将页面截图发送给视觉大模型识别，模型返回下一步操作指令，循环执行直到完成全部任务。

推荐工具：Midscene

这是字节开源的纯视觉测试方案，支持 Web、Android、iOS，兼容多种视觉模型：Gemini、Qwen-VL、Doubao-VL。自然语言写测试目标，AI 自己生成脚本。

但 Token 消耗高。跑一轮测试下来成本不低。而且视觉模型偶尔会出问题。

所以视觉方案更像是补充：DOM 搞不定的场景，比如验证 UI 有没有错位、样式有没有问题，再让视觉上。

ChatGPT AgentMode

SCR-20260115-g7z1920×1371 153 KB
SCR-20260115-gar1780×346 15.1 KB

缺点是最少需要购买 Team 或者 Pro。

怎么选？

场景	建议
页面结构稳定，预算有限	DOM + Playwright
页面动效多、结构不稳定	视觉方案
想检测布局错位、样式问题	必须视觉，DOM 看不出来
成本敏感	DOM 为主

几个坑提前说

成本控制：先让 AI 生成用例，人审完再跑。不然跑完发现一半用例有问题，Token 白烧了。

CI/CD 集成：配置的时候注意超时设置。视觉方案跑得慢，默认超时可能不够。

核心就一句：DOM 打底，视觉补充，别一开始就 all in 最贵的方案。

有实践经验的欢迎评论区交流。

相关链接：

Midscene：https://midscenejs.com
agent-browser：GitHub - vercel-labs/agent-browser: Browser automation CLI for AI agents
Playwright：https://playwright.dev
test-cases Skill：myclaude/skills/test-cases/SKILL.md at master · cexll/myclaude · GitHub

网友解答：

--【壹】--： 星纬智联技术:

image1830×1806 329 KB

佬，我看到你的 CC 可以直接调用 agent-browser，是只需要安装依赖就好了吗，还是说有什么 MCP 工具之类的

--【贰】--：

游戏的AI测试有什么方案吗？

--【叁】--：

分享的很好，不要一开始就搞all in，太有体会了！

--【肆】--：

客户端开发的UI有什么好的闭环测试方案吗

--【伍】--：

哇哦，干货！

--【陆】--：

这种就需要视觉模型了

--【柒】--：

感谢分享

--【捌】--：

猴哥牛的！

--【玖】--：

是的直接安装的 agent-browser cli

--【拾】--：

感谢大佬！

--【拾壹】--：

马克一下

--【拾贰】--：

感谢分享！

--【拾叁】--：

感谢支持

--【拾肆】--：

太棒了，学习一下

--【拾伍】--：

感谢佬友

--【拾陆】--：

这就是我的盲区了，不太清楚，如果有对外提供的 API 类似 dom 也是可以封装的

--【拾柒】--：

感谢分享

--【拾捌】--：

为什么没有用 chrome-devtools，出于什么原因呢？

--【拾玖】--：

谢谢佬分享

标签：人工智能

DOM

纯视觉

ChatGPT AgentMode

怎么选？

几个坑提前说

相关推荐

DOM

纯视觉

ChatGPT AgentMode

怎么选？

几个坑提前说

相关推荐