【翰林文苑】一招简单区分Sonnet 4.6和Opus 4.6

2026-04-11 14:071阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

温度和top_p均不特意设置(其实特意设置也无所谓)

提示词:

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答:
--【壹】--:

小点好,嘎帮脆


--【贰】--:

防号商掺假用的


--【叁】--: 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了

经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图


--【肆】--:

特化成没有特点的小家伙了


--【伍】--:

学到了!


--【陆】--:

学到了。


--【柒】--:

not completely
这是token的数学概率分布

翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了


--【捌】--:

学到了~


--【玖】--:

IMG_98651179×2556 177 KB


--【拾】--:

@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了


--【拾壹】--:

看看你的特化


--【拾贰】--:

w 学到了喵~ 奇怪小知识(瘫

w 感觉花了好多钱喵~(呆


--【拾叁】--:

和之前那个美咲一个原理吧


--【拾肆】--:

防号商掺假用的,学到了


--【拾伍】--:

奇怪的特化喵


--【拾陆】--:

其实你可以发现,Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5,Opus 4.5和Opus 4.6有挺大相似度(这三个模型都会输出247)

但是Sonnet 4.6的行为完全不一样


--【拾柒】--:

好简单又奇怪的检测词


--【拾捌】--: 翰林文苑:

但是Sonnet不是,更偏向47/217等数字(也有247)

请测试10次以上喵


--【拾玖】--:

image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思

标签:人工智能
问题描述:

温度和top_p均不特意设置(其实特意设置也无所谓)

提示词:

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答:
--【壹】--:

小点好,嘎帮脆


--【贰】--:

防号商掺假用的


--【叁】--: 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了

经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图


--【肆】--:

特化成没有特点的小家伙了


--【伍】--:

学到了!


--【陆】--:

学到了。


--【柒】--:

not completely
这是token的数学概率分布

翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了


--【捌】--:

学到了~


--【玖】--:

IMG_98651179×2556 177 KB


--【拾】--:

@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了


--【拾壹】--:

看看你的特化


--【拾贰】--:

w 学到了喵~ 奇怪小知识(瘫

w 感觉花了好多钱喵~(呆


--【拾叁】--:

和之前那个美咲一个原理吧


--【拾肆】--:

防号商掺假用的,学到了


--【拾伍】--:

奇怪的特化喵


--【拾陆】--:

其实你可以发现,Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5,Opus 4.5和Opus 4.6有挺大相似度(这三个模型都会输出247)

但是Sonnet 4.6的行为完全不一样


--【拾柒】--:

好简单又奇怪的检测词


--【拾捌】--: 翰林文苑:

但是Sonnet不是,更偏向47/217等数字(也有247)

请测试10次以上喵


--【拾玖】--:

image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思

标签:人工智能