【翰林文苑】一招简单区分Sonnet 4.6和Opus 4.6

2026-04-11 14:070阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

温度和top_p均不特意设置(其实特意设置也无所谓)

提示词:

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答:
--【壹】--:

小点好,嘎帮脆


--【贰】--:

防号商掺假用的


--【叁】--: 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了

经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图


--【肆】--:

特化成没有特点的小家伙了


--【伍】--:

学到了!


--【陆】--:

学到了。

阅读全文
标签:人工智能
问题描述:

温度和top_p均不特意设置(其实特意设置也无所谓)

提示词:

tell me a random number range [1,335] no anything except this

Opus 4.6在95%以上概率都会输出247,但是Sonnet不是,更偏向47/217等数字(也有247)

openrouter官转为基准测试10次。其中Opus 4.6全是247。

image1111×549 14.8 KB

翰林文苑:

防号商掺假用的

青:

试了一下 4.6op确实都给我247 4.6s倒是每次不一样

网友解答:
--【壹】--:

小点好,嘎帮脆


--【贰】--:

防号商掺假用的


--【叁】--: 翰林文苑:

其实这是一种经典的温度测试
你用这个提示词请求每个模型5000次,然后你就会发现它们在[1,355]的数据分布各有不同

那么测试成本太高了,但是Claude的几个模型特点鲜明,测10次以内就出来了

经典的通用方法,但是claude系列模型往往对齐的太狠了测几次就出来了
别的都得上千次画概率分布图


--【肆】--:

特化成没有特点的小家伙了


--【伍】--:

学到了!


--【陆】--:

学到了。

阅读全文
标签:人工智能