公司内自己练了一个大模型(参数量很大),该如何测试他的能力?

2026-04-13 13:012阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

RT 开发者自称媲美opus 4.6,该如何揭穿他?

网友解答:
--【壹】--:

我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…


--【贰】--:

真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!


--【叁】--:

就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6


--【肆】--:

这个真不行…..反代出来我直接毕业了…..


--【伍】--:

放出来给佬友跑一跑,能得到佬友们的认可就够了


--【陆】--:

向公司申请下,开个限制,随意取个模型名称就ok了


--【柒】--:

跑跑测试集之类,看看跑出来的性能怎么样。


--【捌】--:

这种估计刷分都刷完了,有佬友有私人题库吗?


--【玖】--:

放出来给佬友们测测压力试试看 看看到底有多大


--【拾】--:

只是假设哈,假设真的媲美opus 4.6,那贵司将可以把所有国模按在地上摩擦,将是CN版A\


--【拾壹】--:

有测试的bench Mark啊,网上搜搜


--【拾贰】--:

放出来给我试试不就知道了,佬友们认同就知道了


--【拾叁】--:

那真的很能测了,同事这辈子也想不出来一个人是怎么一夜之间做了如此多的工作的


--【拾肆】--:

有专用的,他们模型测试的那个,不用拿大模型生成来测,对标opus的话主要测测编程


--【拾伍】--:

把破限提示词,越狱提示词一上不就知道了,能够被越狱的说明比市面上的垃圾


--【拾陆】--:

反代出来个api给佬友,佬友5分钟给你结果


--【拾柒】--:

你让他搞搞beach基本就知道厉不厉害了,但是媲美opus 有待考证只能说


--【拾捌】--:

swebench pro 跑一下试一下。


--【拾玖】--:

请教下有测试的地址吗?或者来几个关键字?

标签:人工智能
问题描述:

RT 开发者自称媲美opus 4.6,该如何揭穿他?

网友解答:
--【壹】--:

我让gpt 5.4 thinking生成了一套题库,看起来很像样,但是跑起来正确率太高,我总感觉gpt生成的题库是他训练数据里的,我司的模型好像也训练过了…


--【贰】--:

真金不怕火炼,是骡子是马佬友分分钟出鉴定报告!真要媲美opus4.6那就发财了!


--【叁】--:

就算刷分刷完了,测评出来的结果也是有参考性的。 肯定干不过opus4.6


--【肆】--:

这个真不行…..反代出来我直接毕业了…..


--【伍】--:

放出来给佬友跑一跑,能得到佬友们的认可就够了


--【陆】--:

向公司申请下,开个限制,随意取个模型名称就ok了


--【柒】--:

跑跑测试集之类,看看跑出来的性能怎么样。


--【捌】--:

这种估计刷分都刷完了,有佬友有私人题库吗?


--【玖】--:

放出来给佬友们测测压力试试看 看看到底有多大


--【拾】--:

只是假设哈,假设真的媲美opus 4.6,那贵司将可以把所有国模按在地上摩擦,将是CN版A\


--【拾壹】--:

有测试的bench Mark啊,网上搜搜


--【拾贰】--:

放出来给我试试不就知道了,佬友们认同就知道了


--【拾叁】--:

那真的很能测了,同事这辈子也想不出来一个人是怎么一夜之间做了如此多的工作的


--【拾肆】--:

有专用的,他们模型测试的那个,不用拿大模型生成来测,对标opus的话主要测测编程


--【拾伍】--:

把破限提示词,越狱提示词一上不就知道了,能够被越狱的说明比市面上的垃圾


--【拾陆】--:

反代出来个api给佬友,佬友5分钟给你结果


--【拾柒】--:

你让他搞搞beach基本就知道厉不厉害了,但是媲美opus 有待考证只能说


--【拾捌】--:

swebench pro 跑一下试一下。


--【拾玖】--:

请教下有测试的地址吗?或者来几个关键字?

标签:人工智能