公司内自己练了一个大模型（参数量很大），该如何测试他的能力？

2026-04-13 13:012阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

RT 开发者自称媲美opus 4.6，该如何揭穿他？

网友解答：

--【壹】--：

我让gpt 5.4 thinking生成了一套题库，看起来很像样，但是跑起来正确率太高，我总感觉gpt生成的题库是他训练数据里的，我司的模型好像也训练过了…

--【贰】--：

真金不怕火炼，是骡子是马佬友分分钟出鉴定报告！真要媲美opus4.6那就发财了！

--【叁】--：

就算刷分刷完了，测评出来的结果也是有参考性的。肯定干不过opus4.6

--【肆】--：

这个真不行…..反代出来我直接毕业了…..

--【伍】--：

放出来给佬友跑一跑，能得到佬友们的认可就够了

--【陆】--：

向公司申请下，开个限制，随意取个模型名称就ok了

--【柒】--：

跑跑测试集之类，看看跑出来的性能怎么样。

--【捌】--：

这种估计刷分都刷完了，有佬友有私人题库吗？

--【玖】--：

放出来给佬友们测测压力试试看看看到底有多大

--【拾】--：

只是假设哈，假设真的媲美opus 4.6，那贵司将可以把所有国模按在地上摩擦，将是CN版A\

--【拾壹】--：

有测试的bench Mark啊，网上搜搜

--【拾贰】--：

放出来给我试试不就知道了，佬友们认同就知道了

--【拾叁】--：

那真的很能测了，同事这辈子也想不出来一个人是怎么一夜之间做了如此多的工作的

--【拾肆】--：

有专用的，他们模型测试的那个，不用拿大模型生成来测，对标opus的话主要测测编程

--【拾伍】--：

把破限提示词，越狱提示词一上不就知道了，能够被越狱的说明比市面上的垃圾

--【拾陆】--：

反代出来个api给佬友，佬友5分钟给你结果

--【拾柒】--：

你让他搞搞beach基本就知道厉不厉害了，但是媲美opus 有待考证只能说

--【拾捌】--：

swebench pro 跑一下试一下。

--【拾玖】--：

请教下有测试的地址吗？或者来几个关键字？

标签：人工智能