AI公开测评分数的可靠性究竟如何保证?
- 内容介绍
- 文章标签
- 相关推荐
AI公开测评分数的可靠性究竟如何保证?
给力。 打开科技新闻或者社交媒体, 你几乎每天都能看到类似的消息:“某某模型在XXX基准测试中斩获第一”、“分数超越GPT-4”、“性能提升300%”……这些数字看起来光鲜亮丽,仿佛人工智能已经无所不能。只是当你满怀期待地去实际体验这些“高分”模型时 往往会大失所望——它们可能连最简单的逻辑题都答非所问,写出来的代码充满了bug,甚至像是在和一个“弱智”对话。
测评系统的漏洞百出
为了让大家更直观地感受到这场闹剧,我们来看一些技术极客是如何系统性地审计并攻破那些知名AI Agent Benchmark的。在一篇名为《How We Broke Top AI Agent Benchmarks: And What Comes Next》的文章中, 作者构建了一个自动化扫描Agent, 请大家务必... 对包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-bench等在内的多个权威榜单进行了“降维打击”,并且每一个都找到了可行的Exploit。
SWE-bench可以说是影响力最大的编程类Benchmark之一, 但它的设计存在一个致命的缺陷:Agent提交的代码补丁会被应用到同一个容器里而测试脚本也是在这个容器里运行的。这意味着什么?意味着Agent不仅能修改业务代码,还能修改测试运行时自动加载的东西!攻击者只需要在提交的补丁里加入一个`conftest.py`文件, 利用pytest的钩子机制,就能把每个测试用例的后来啊强行改成“Passed”。日志解析器看到的自然就是一片绿油油的“全通过”。
WebArena的问题简直让人哭笑不得,属于那种“灯下黑”。
AI公开测评分数的可靠性究竟如何保证?
给力。 打开科技新闻或者社交媒体, 你几乎每天都能看到类似的消息:“某某模型在XXX基准测试中斩获第一”、“分数超越GPT-4”、“性能提升300%”……这些数字看起来光鲜亮丽,仿佛人工智能已经无所不能。只是当你满怀期待地去实际体验这些“高分”模型时 往往会大失所望——它们可能连最简单的逻辑题都答非所问,写出来的代码充满了bug,甚至像是在和一个“弱智”对话。
测评系统的漏洞百出
为了让大家更直观地感受到这场闹剧,我们来看一些技术极客是如何系统性地审计并攻破那些知名AI Agent Benchmark的。在一篇名为《How We Broke Top AI Agent Benchmarks: And What Comes Next》的文章中, 作者构建了一个自动化扫描Agent, 请大家务必... 对包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-bench等在内的多个权威榜单进行了“降维打击”,并且每一个都找到了可行的Exploit。
SWE-bench可以说是影响力最大的编程类Benchmark之一, 但它的设计存在一个致命的缺陷:Agent提交的代码补丁会被应用到同一个容器里而测试脚本也是在这个容器里运行的。这意味着什么?意味着Agent不仅能修改业务代码,还能修改测试运行时自动加载的东西!攻击者只需要在提交的补丁里加入一个`conftest.py`文件, 利用pytest的钩子机制,就能把每个测试用例的后来啊强行改成“Passed”。日志解析器看到的自然就是一片绿油油的“全通过”。
WebArena的问题简直让人哭笑不得,属于那种“灯下黑”。

