【翰林文苑】一招简单区分Sonnet 4.6和Opus 4.6
- 内容介绍
- 文章标签
- 相关推荐
温度和top_p均不特意设置(其实特意设置也无所谓)
提示词:
tell me a random number range [1,335]
no anything except this
Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)
openrouter官转为基准测试10次。其中Opus 4.6全是247。
image1111×549 14.8 KB
翰林文苑:青:防号商掺假用的
网友解答:试了一下 4.6op确实都给我247 4.6s倒是每次不一样
--【壹】--:
小点好,嘎帮脆
--【贰】--:
防号商掺假用的
--【叁】--: 翰林文苑:
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图
--【肆】--:
特化成没有特点的小家伙了
--【伍】--:
学到了!
--【陆】--:
学到了。
--【柒】--:
not completely
这是token的数学概率分布
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
--【捌】--:
学到了~
--【玖】--:
IMG_98651179×2556 177 KB
--【拾】--:
@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同
那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
--【拾壹】--:
看看你的特化
--【拾贰】--:
w 学到了喵~ 奇怪小知识(瘫
w 感觉花了好多钱喵~(呆
--【拾叁】--:
和之前那个美咲一个原理吧
--【拾肆】--:
防号商掺假用的,学到了
--【拾伍】--:
奇怪的特化喵
--【拾陆】--:
其实你可以发现,Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5,Opus 4.5和Opus 4.6有挺大相似度(这三个模型都会输出247)
但是Sonnet 4.6的行为完全不一样
--【拾柒】--:
好简单又奇怪的检测词
--【拾捌】--: 翰林文苑:
但是Sonnet不是,更偏向47/217等数字(也有247)
请测试10次以上喵
--【拾玖】--:
image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思
温度和top_p均不特意设置(其实特意设置也无所谓)
提示词:
tell me a random number range [1,335]
no anything except this
Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)
openrouter官转为基准测试10次。其中Opus 4.6全是247。
image1111×549 14.8 KB
翰林文苑:青:防号商掺假用的
网友解答:试了一下 4.6op确实都给我247 4.6s倒是每次不一样
--【壹】--:
小点好,嘎帮脆
--【贰】--:
防号商掺假用的
--【叁】--: 翰林文苑:
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图
--【肆】--:
特化成没有特点的小家伙了
--【伍】--:
学到了!
--【陆】--:
学到了。
--【柒】--:
not completely
这是token的数学概率分布
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
--【捌】--:
学到了~
--【玖】--:
IMG_98651179×2556 177 KB
--【拾】--:
@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同
那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了
--【拾壹】--:
看看你的特化
--【拾贰】--:
w 学到了喵~ 奇怪小知识(瘫
w 感觉花了好多钱喵~(呆
--【拾叁】--:
和之前那个美咲一个原理吧
--【拾肆】--:
防号商掺假用的,学到了
--【拾伍】--:
奇怪的特化喵
--【拾陆】--:
其实你可以发现,Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5,Opus 4.5和Opus 4.6有挺大相似度(这三个模型都会输出247)
但是Sonnet 4.6的行为完全不一样
--【拾柒】--:
好简单又奇怪的检测词
--【拾捌】--: 翰林文苑:
但是Sonnet不是,更偏向47/217等数字(也有247)
请测试10次以上喵
--【拾玖】--:
image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思

