自己维护一个 LLM Benchmark 的想法
- 内容介绍
- 文章标签
- 相关推荐
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。
因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。
目前存在的问题如下:
- 在 OJ 上评测有滥用评测资源的嫌疑,因此我打算在本地使用 LemonLime 评测,但获取测试数据可能存在一定困难。
- 我目前缺乏正规的 LLM 渠道,只能使用各家的网页端以及一些公益进行评测,对于评测的准确性可能有负面影响。
但我觉得目前还是先把题目搜集起来再说。征求一下各位佬的看法。
网友解答:--【壹】--:
喜报:造完十道题了。
悲报:codex 蹬没了。
--【贰】--:
我想搞的这个其实类似于知乎上 toyama nao 的那个 bench。不是像 livebench、swe bench 这种比较正式的大型 bench。
另外已经造好三道题了
--【叁】--:
见过有。基本每次帖子下面就是粉黑团战。
--【肆】--:
12个太少了吧 目前有不少比较好的bench
--【伍】--:
以后我遇见好题再加进来嘛。
另外,具体是什么 bench 比较好,能否介绍一下
--【陆】--:
传统的处理器性能bench都一团乱麻可想而知LLM的大乱斗
--【柒】--:
codex 造数据好好用(
--【捌】--:
更新一下进展:目前找了 12 道题,都很有 CNOI 特色(DS、DP、计数)。感觉差不多了,以后需要再加。
下一步是造数据。
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。
因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。
目前存在的问题如下:
- 在 OJ 上评测有滥用评测资源的嫌疑,因此我打算在本地使用 LemonLime 评测,但获取测试数据可能存在一定困难。
- 我目前缺乏正规的 LLM 渠道,只能使用各家的网页端以及一些公益进行评测,对于评测的准确性可能有负面影响。
但我觉得目前还是先把题目搜集起来再说。征求一下各位佬的看法。
网友解答:--【壹】--:
喜报:造完十道题了。
悲报:codex 蹬没了。
--【贰】--:
我想搞的这个其实类似于知乎上 toyama nao 的那个 bench。不是像 livebench、swe bench 这种比较正式的大型 bench。
另外已经造好三道题了
--【叁】--:
见过有。基本每次帖子下面就是粉黑团战。
--【肆】--:
12个太少了吧 目前有不少比较好的bench
--【伍】--:
以后我遇见好题再加进来嘛。
另外,具体是什么 bench 比较好,能否介绍一下
--【陆】--:
传统的处理器性能bench都一团乱麻可想而知LLM的大乱斗
--【柒】--:
codex 造数据好好用(
--【捌】--:
更新一下进展:目前找了 12 道题,都很有 CNOI 特色(DS、DP、计数)。感觉差不多了,以后需要再加。
下一步是造数据。

