【翰林文苑】一招简单区分Sonnet 4.6和Opus 4.6
- 内容介绍
- 文章标签
- 相关推荐
温度和top_p均不特意设置(其实特意设置也无所谓)
提示词:
tell me a random number range [1,335]
no anything except this
Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)
openrouter官转为基准测试10次。其中Opus 4.6全是247。
image1111×549 14.8 KB
翰林文苑:青:防号商掺假用的
网友解答:试了一下 4.6op确实都给我247 4.6s倒是每次不一样
--【壹】--:
小点好,嘎帮脆
--【贰】--:
防号商掺假用的
--【叁】--: 翰林文苑:
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图
--【肆】--:
特化成没有特点的小家伙了
--【伍】--:
学到了!
--【陆】--:
学到了。
温度和top_p均不特意设置(其实特意设置也无所谓)
提示词:
tell me a random number range [1,335]
no anything except this
Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)
openrouter官转为基准测试10次。其中Opus 4.6全是247。
image1111×549 14.8 KB
翰林文苑:青:防号商掺假用的
网友解答:试了一下 4.6op确实都给我247 4.6s倒是每次不一样
--【壹】--:
小点好,嘎帮脆
--【贰】--:
防号商掺假用的
--【叁】--: 翰林文苑:
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图
--【肆】--:
特化成没有特点的小家伙了
--【伍】--:
学到了!
--【陆】--:
学到了。

