关于如何校验模型的真实性,我有一个测试想法
- 内容介绍
- 文章标签
- 相关推荐
方法很简单,就是在实际项目当中compaction过后把压缩内容直接输入到我们的竞技场的code模式当中,观察UI效果.
我自己试用claude sonnet 4.6和网页竞技场的4.6 出来的效果很接近,应该都是真的,在提示词差不多的情况下面应该最后的表现都是差不多的.
左图,自己测试的
image1036×742 65.4 KB
image1045×726 46.1 KB
竞技场的效果
image848×771 73.9 KB
这样通过UI来校验应该是最简单的,有没有掺水意试就知道.
测试项目试本人的开源项目,一个注册邮箱管理器,感兴趣的佬可以点击主页看介绍贴.
网友解答:--【壹】--:
提示词:
Goal
The user is redesigning the Settings page (templates/index.html) of their Outlook Email project with two goals:
Tab-based navigation — Replace the long single-page scroll form with 4 tabs: 基础 (Basic), 临时邮箱 (Temp Mail), API 安全 (API Security), 自动化 (Automation)
Temp Mail Provider separation — Within the “临时邮箱” tab, split GPTMail and CF Worker configurations into two independent panels, change the Provider selector from
方法很简单,就是在实际项目当中compaction过后把压缩内容直接输入到我们的竞技场的code模式当中,观察UI效果.
我自己试用claude sonnet 4.6和网页竞技场的4.6 出来的效果很接近,应该都是真的,在提示词差不多的情况下面应该最后的表现都是差不多的.
左图,自己测试的
image1036×742 65.4 KB
image1045×726 46.1 KB
竞技场的效果
image848×771 73.9 KB
这样通过UI来校验应该是最简单的,有没有掺水意试就知道.
测试项目试本人的开源项目,一个注册邮箱管理器,感兴趣的佬可以点击主页看介绍贴.
网友解答:--【壹】--:
提示词:
Goal
The user is redesigning the Settings page (templates/index.html) of their Outlook Email project with two goals:
Tab-based navigation — Replace the long single-page scroll form with 4 tabs: 基础 (Basic), 临时邮箱 (Temp Mail), API 安全 (API Security), 自动化 (Automation)
Temp Mail Provider separation — Within the “临时邮箱” tab, split GPTMail and CF Worker configurations into two independent panels, change the Provider selector from

