【翰林文苑】一招简单区分Sonnet 4.6和Opus 4.6

2026-04-11 14:071阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

温度和top_p均不特意设置（其实特意设置也无所谓）

提示词：

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247，但是Sonnet不是，更偏向47/217等数字（也有247）

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答：

--【壹】--：

小点好，嘎帮脆

--【贰】--：

防号商掺假用的

--【叁】--： 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

经典的通用方法，但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图

--【肆】--：

特化成没有特点的小家伙了

--【伍】--：

学到了！

--【陆】--：

学到了。

--【柒】--：

not completely
这是token的数学概率分布

翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

--【捌】--：

学到了~

--【玖】--：

IMG_98651179×2556 177 KB

--【拾】--：

@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

--【拾壹】--：

看看你的特化

--【拾贰】--：

w 学到了喵~ 奇怪小知识(瘫

~~w 感觉花了好多钱喵~(呆~~

--【拾叁】--：

和之前那个美咲一个原理吧

--【拾肆】--：

防号商掺假用的，学到了

--【拾伍】--：

奇怪的特化喵

--【拾陆】--：

其实你可以发现，Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5，Opus 4.5和Opus 4.6有挺大相似度（这三个模型都会输出247）

但是Sonnet 4.6的行为完全不一样

--【拾柒】--：

好简单又奇怪的检测词

--【拾捌】--： 翰林文苑:

但是Sonnet不是，更偏向47/217等数字（也有247）

请测试10次以上喵

--【拾玖】--：

image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思

标签：人工智能

问题描述：

温度和top_p均不特意设置（其实特意设置也无所谓）

提示词：

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247，但是Sonnet不是，更偏向47/217等数字（也有247）

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答：

--【壹】--：

小点好，嘎帮脆

--【贰】--：

防号商掺假用的

--【叁】--： 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

经典的通用方法，但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图

--【肆】--：

特化成没有特点的小家伙了

--【伍】--：

学到了！

--【陆】--：

学到了。

--【柒】--：

not completely
这是token的数学概率分布

翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

--【捌】--：

学到了~

--【玖】--：

IMG_98651179×2556 177 KB

--【拾】--：

@stevessr
其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次，然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了，但是Claude的几个模型特点鲜明，测10次以内就出来了

--【拾壹】--：

看看你的特化

--【拾贰】--：

w 学到了喵~ 奇怪小知识(瘫

~~w 感觉花了好多钱喵~(呆~~

--【拾叁】--：

和之前那个美咲一个原理吧

--【拾肆】--：

防号商掺假用的，学到了

--【拾伍】--：

奇怪的特化喵

--【拾陆】--：

其实你可以发现，Sonnet 4.6和Opus 4.6的行为表现区别很大
Sonnet 4.5像Opus 4.5，Opus 4.5和Opus 4.6有挺大相似度（这三个模型都会输出247）

但是Sonnet 4.6的行为完全不一样

--【拾柒】--：

好简单又奇怪的检测词

--【拾捌】--： 翰林文苑:

但是Sonnet不是，更偏向47/217等数字（也有247）

请测试10次以上喵

--【拾玖】--：

image1742×636 172 KB
image1824×846 237 KB
image1701×340 69 KB
有意思

标签：人工智能

相关推荐

相关推荐