公司内自己练了一个大模型(参数量很大),该如何测试他的能力?

2026-04-13 13:011阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

RT 开发者自称媲美opus 4.6,该如何揭穿他?

网友解答:
--【壹】--:

我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…


--【贰】--:

真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!


--【叁】--:

就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6


--【肆】--:

这个真不行…..反代出来我直接毕业了…..


--【伍】--:

放出来给佬友跑一跑,能得到佬友们的认可就够了


--【陆】--:

向公司申请下,开个限制,随意取个模型名称就ok了


--【柒】--:

跑跑测试集之类,看看跑出来的性能怎么样。

阅读全文
标签:人工智能
问题描述:

RT 开发者自称媲美opus 4.6,该如何揭穿他?

网友解答:
--【壹】--:

我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…


--【贰】--:

真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!


--【叁】--:

就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6


--【肆】--:

这个真不行…..反代出来我直接毕业了…..


--【伍】--:

放出来给佬友跑一跑,能得到佬友们的认可就够了


--【陆】--:

向公司申请下,开个限制,随意取个模型名称就ok了


--【柒】--:

跑跑测试集之类,看看跑出来的性能怎么样。

阅读全文
标签:人工智能