GPT 5.5测评:高效的推理和搞笑的能力
- 内容介绍
- 文章标签
- 相关推荐
先放私有bench
image953×418 8.42 KB
GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的
image1242×801 261 KB
image1485×684 239 KB
image989×602 132 KB
或多或少都存在一些缺陷,整体质量不如5.4。
据传参数量也变大了,是oai目前第二大参数量的模型,可能在知识库和其他方面有所提升,但是预期代码感觉会比5.4更蠢,而且不说人话的毛病虽然改了些,但似乎还是一股味。
总体来说,对不起这个价格
——————————
四月份似乎所有厂商都拉了啊
先放私有bench [image] 到4.17号早上,佬们的各种骂声已经淹没L站了,就不多描述他的其他拉了 放一些结果 [image] 单说这个宝塔我说不如很多国模 [image] 渲染问题在往届没有过 [image] 审美也是区区的 而且这一代的思考时间极其长,堪比GPT,给我断流好几次 甚至知识库都更弱了 [image] 你如果说这是sonnet,…
kimi2.6测出来也是小范围蠕动。OAI也要坚守image 2的护城河了么
那么谷歌在哪里发财啊
--【壹】--:
5.5 做调度器,5.4xhigh sub agent写代码?
--【贰】--: Butterl:
5.5 比5.4 差,和4.7 不如4.6
体感5.5只是代码能力稍差5.4,其他都是更强(工具调用也更积极,而且出错更低,因为我是在wsl2里跑,但是做的是win项目需要用win端工具链,5.4搞错工具链的频率不算低,要错个一次才能走回来,5.5目前没出错过一次)
a/ 4.7我体感反正是全面不如4.6,用opus我基本都是4.6
均为官订
--【叁】--:
别的不知道,我同一个任务,把pptx发给5.4帮我改错别字,5.4会把格式弄乱,5.5不会,很完美。而且处理时间快了30%
--【肆】--:
写代码不用 xhigh,high 就够了
--【伍】--:
我求求openai呀,抓紧发 5.6 吧,这 5.5 搞什么啊
--【陆】--:
这下坚定用 5.4 的决心了话说这是哪家开了挤牙膏/负优化的好头,以至于大家都路径依赖了
--【柒】--:
Xhigh 有时候感觉有点拧巴,但是规划的时候比high要全面一点?
--【捌】--:
5.5 比5.4 差,和4.7 不如4.6 一个风格么?
--【玖】--:
感觉还挺好的,5.4除了代码之外处处透着一股异味,现在有机会把各项能力均衡一下我觉得是好事
--【拾】--:
5.5 黑话改善了不少啊感觉,弱点就弱点吧我宁愿他正常说话
先放私有bench
image953×418 8.42 KB
GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的
image1242×801 261 KB
image1485×684 239 KB
image989×602 132 KB
或多或少都存在一些缺陷,整体质量不如5.4。
据传参数量也变大了,是oai目前第二大参数量的模型,可能在知识库和其他方面有所提升,但是预期代码感觉会比5.4更蠢,而且不说人话的毛病虽然改了些,但似乎还是一股味。
总体来说,对不起这个价格
——————————
四月份似乎所有厂商都拉了啊
先放私有bench [image] 到4.17号早上,佬们的各种骂声已经淹没L站了,就不多描述他的其他拉了 放一些结果 [image] 单说这个宝塔我说不如很多国模 [image] 渲染问题在往届没有过 [image] 审美也是区区的 而且这一代的思考时间极其长,堪比GPT,给我断流好几次 甚至知识库都更弱了 [image] 你如果说这是sonnet,…
kimi2.6测出来也是小范围蠕动。OAI也要坚守image 2的护城河了么
那么谷歌在哪里发财啊
--【壹】--:
5.5 做调度器,5.4xhigh sub agent写代码?
--【贰】--: Butterl:
5.5 比5.4 差,和4.7 不如4.6
体感5.5只是代码能力稍差5.4,其他都是更强(工具调用也更积极,而且出错更低,因为我是在wsl2里跑,但是做的是win项目需要用win端工具链,5.4搞错工具链的频率不算低,要错个一次才能走回来,5.5目前没出错过一次)
a/ 4.7我体感反正是全面不如4.6,用opus我基本都是4.6
均为官订
--【叁】--:
别的不知道,我同一个任务,把pptx发给5.4帮我改错别字,5.4会把格式弄乱,5.5不会,很完美。而且处理时间快了30%
--【肆】--:
写代码不用 xhigh,high 就够了
--【伍】--:
我求求openai呀,抓紧发 5.6 吧,这 5.5 搞什么啊
--【陆】--:
这下坚定用 5.4 的决心了话说这是哪家开了挤牙膏/负优化的好头,以至于大家都路径依赖了
--【柒】--:
Xhigh 有时候感觉有点拧巴,但是规划的时候比high要全面一点?
--【捌】--:
5.5 比5.4 差,和4.7 不如4.6 一个风格么?
--【玖】--:
感觉还挺好的,5.4除了代码之外处处透着一股异味,现在有机会把各项能力均衡一下我觉得是好事
--【拾】--:
5.5 黑话改善了不少啊感觉,弱点就弱点吧我宁愿他正常说话

