自己维护一个 LLM Benchmark 的想法

2026-04-11 11:520阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。

因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。

目前存在的问题如下：

在 OJ 上评测有滥用评测资源的嫌疑，因此我打算在本地使用 LemonLime 评测，但获取测试数据可能存在一定困难。
我目前缺乏正规的 LLM 渠道，只能使用各家的网页端以及一些公益进行评测，对于评测的准确性可能有负面影响。

但我觉得目前还是先把题目搜集起来再说。征求一下各位佬的看法。

网友解答：

--【壹】--：

喜报：造完十道题了。

悲报：codex 蹬没了。

--【贰】--：

我想搞的这个其实类似于知乎上 toyama nao 的那个 bench。不是像 livebench、swe bench 这种比较正式的大型 bench。

另外已经造好三道题了

--【叁】--：

见过有。基本每次帖子下面就是粉黑团战。

--【肆】--：

12个太少了吧目前有不少比较好的bench

--【伍】--：

以后我遇见好题再加进来嘛。

另外，具体是什么 bench 比较好，能否介绍一下

--【陆】--：

传统的处理器性能bench都一团乱麻可想而知LLM的大乱斗

--【柒】--：

codex 造数据好好用（

--【捌】--：

更新一下进展：目前找了 12 道题，都很有 CNOI 特色（DS、DP、计数）。感觉差不多了，以后需要再加。

下一步是造数据。

阅读全文

标签：人工智能