自己维护一个 LLM Benchmark 的想法

2026-04-11 11:521阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。

因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。

目前存在的问题如下:

  • 在 OJ 上评测有滥用评测资源的嫌疑,因此我打算在本地使用 LemonLime 评测,但获取测试数据可能存在一定困难。
  • 我目前缺乏正规的 LLM 渠道,只能使用各家的网页端以及一些公益进行评测,对于评测的准确性可能有负面影响。

但我觉得目前还是先把题目搜集起来再说。征求一下各位佬的看法。

网友解答:
--【壹】--:

喜报:造完十道题了。

悲报:codex 蹬没了。


--【贰】--:

我想搞的这个其实类似于知乎上 toyama nao 的那个 bench。不是像 livebench、swe bench 这种比较正式的大型 bench。

另外已经造好三道题了


--【叁】--:

见过有。基本每次帖子下面就是粉黑团战。


--【肆】--:

12个太少了吧 目前有不少比较好的bench


--【伍】--:

以后我遇见好题再加进来嘛。

另外,具体是什么 bench 比较好,能否介绍一下


--【陆】--:

传统的处理器性能bench都一团乱麻可想而知LLM的大乱斗


--【柒】--:

codex 造数据好好用(


--【捌】--:

更新一下进展:目前找了 12 道题,都很有 CNOI 特色(DS、DP、计数)。感觉差不多了,以后需要再加。

下一步是造数据。


--【玖】--:

话说 L 站以前有佬搞过自己的 Benchmark 吗(

标签:人工智能
问题描述:

目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。

因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。

目前存在的问题如下:

  • 在 OJ 上评测有滥用评测资源的嫌疑,因此我打算在本地使用 LemonLime 评测,但获取测试数据可能存在一定困难。
  • 我目前缺乏正规的 LLM 渠道,只能使用各家的网页端以及一些公益进行评测,对于评测的准确性可能有负面影响。

但我觉得目前还是先把题目搜集起来再说。征求一下各位佬的看法。

网友解答:
--【壹】--:

喜报:造完十道题了。

悲报:codex 蹬没了。


--【贰】--:

我想搞的这个其实类似于知乎上 toyama nao 的那个 bench。不是像 livebench、swe bench 这种比较正式的大型 bench。

另外已经造好三道题了


--【叁】--:

见过有。基本每次帖子下面就是粉黑团战。


--【肆】--:

12个太少了吧 目前有不少比较好的bench


--【伍】--:

以后我遇见好题再加进来嘛。

另外,具体是什么 bench 比较好,能否介绍一下


--【陆】--:

传统的处理器性能bench都一团乱麻可想而知LLM的大乱斗


--【柒】--:

codex 造数据好好用(


--【捌】--:

更新一下进展:目前找了 12 道题,都很有 CNOI 特色(DS、DP、计数)。感觉差不多了,以后需要再加。

下一步是造数据。


--【玖】--:

话说 L 站以前有佬搞过自己的 Benchmark 吗(

标签:人工智能