公司内自己练了一个大模型(参数量很大),该如何测试他的能力?
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
RT 开发者自称媲美opus 4.6,该如何揭穿他?
网友解答:--【壹】--:
我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…
--【贰】--:
真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!
--【叁】--:
就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6
--【肆】--:
这个真不行…..反代出来我直接毕业了…..
--【伍】--:
放出来给佬友跑一跑,能得到佬友们的认可就够了
--【陆】--:
向公司申请下,开个限制,随意取个模型名称就ok了
--【柒】--:
跑跑测试集之类,看看跑出来的性能怎么样。
问题描述:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
RT 开发者自称媲美opus 4.6,该如何揭穿他?
网友解答:--【壹】--:
我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…
--【贰】--:
真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!
--【叁】--:
就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6
--【肆】--:
这个真不行…..反代出来我直接毕业了…..
--【伍】--:
放出来给佬友跑一跑,能得到佬友们的认可就够了
--【陆】--:
向公司申请下,开个限制,随意取个模型名称就ok了
--【柒】--:
跑跑测试集之类,看看跑出来的性能怎么样。

