公司内自己练了一个大模型(参数量很大),该如何测试他的能力?
- 内容介绍
- 文章标签
- 相关推荐
RT 开发者自称媲美opus 4.6,该如何揭穿他?
网友解答:--【壹】--:
我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…
--【贰】--:
真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!
--【叁】--:
就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6
--【肆】--:
这个真不行…..反代出来我直接毕业了…..
--【伍】--:
放出来给佬友跑一跑,能得到佬友们的认可就够了
--【陆】--:
向公司申请下,开个限制,随意取个模型名称就ok了
--【柒】--:
跑跑测试集之类,看看跑出来的性能怎么样。
--【捌】--:
这种估计刷分都刷完了,有佬友有私人题库吗?
--【玖】--:
放出来给佬友们测测压力试试看 看看到底有多大
--【拾】--:
只是假设哈,假设真的媲美opus 4.6,那贵司将可以把所有国模按在地上摩擦,将是CN版A\
--【拾壹】--:
有测试的bench Mark啊,网上搜搜
--【拾贰】--:
放出来给我试试不就知道了,佬友们认同就知道了
--【拾叁】--:
那真的很能测了,同事这辈子也想不出来一个人是怎么一夜之间做了如此多的工作的
--【拾肆】--:
有专用的,他们模型测试的那个,不用拿大模型生成来测,对标opus的话主要测测编程
--【拾伍】--:
把破限提示词,越狱提示词一上不就知道了,能够被越狱的说明比市面上的垃圾
--【拾陆】--:
反代出来个api给佬友,佬友5分钟给你结果
--【拾柒】--:
你让他搞搞beach基本就知道厉不厉害了,但是媲美opus 有待考证只能说
--【拾捌】--:
swebench pro 跑一下试一下。
--【拾玖】--:
请教下有测试的地址吗?或者来几个关键字?
RT 开发者自称媲美opus 4.6,该如何揭穿他?
网友解答:--【壹】--:
我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…
--【贰】--:
真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!
--【叁】--:
就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6
--【肆】--:
这个真不行…..反代出来我直接毕业了…..
--【伍】--:
放出来给佬友跑一跑,能得到佬友们的认可就够了
--【陆】--:
向公司申请下,开个限制,随意取个模型名称就ok了
--【柒】--:
跑跑测试集之类,看看跑出来的性能怎么样。
--【捌】--:
这种估计刷分都刷完了,有佬友有私人题库吗?
--【玖】--:
放出来给佬友们测测压力试试看 看看到底有多大
--【拾】--:
只是假设哈,假设真的媲美opus 4.6,那贵司将可以把所有国模按在地上摩擦,将是CN版A\
--【拾壹】--:
有测试的bench Mark啊,网上搜搜
--【拾贰】--:
放出来给我试试不就知道了,佬友们认同就知道了
--【拾叁】--:
那真的很能测了,同事这辈子也想不出来一个人是怎么一夜之间做了如此多的工作的
--【拾肆】--:
有专用的,他们模型测试的那个,不用拿大模型生成来测,对标opus的话主要测测编程
--【拾伍】--:
把破限提示词,越狱提示词一上不就知道了,能够被越狱的说明比市面上的垃圾
--【拾陆】--:
反代出来个api给佬友,佬友5分钟给你结果
--【拾柒】--:
你让他搞搞beach基本就知道厉不厉害了,但是媲美opus 有待考证只能说
--【拾捌】--:
swebench pro 跑一下试一下。
--【拾玖】--:
请教下有测试的地址吗?或者来几个关键字?

