【SNSE Bench】目前进度预告帖

2026-04-11 08:262阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要：

自己维护一个 LLM Benchmark 的想法开发调优

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。目前存在的问题如下：在 OJ 上评测有…

注意：尽管都是编程相关，算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称：SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型：

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)
Gemini 3.1 Pro

目前正在测试以下模型：

GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。

如无特殊说明，思考强度均为可用的最高档，无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜，预计可以在本周内完成。

且由于一些题目可能存在版权问题，本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷，如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

但我做这个 Bench 是由于目前网络上在算法竞赛方面的各项 Benchmark 都存在较大缺陷，没有一个让我满意的 Bench。所以我想要来补全这个空白。但更希望以后有更优秀的算法竞赛 Benchmark 出现。

网友解答：

--【壹】--：

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要：

自己维护一个 LLM Benchmark 的想法开发调优

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。目前存在的问题如下：在 OJ 上评测有…

全称：SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型：

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)
Gemini 3.1 Pro

目前正在测试以下模型：

GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。

如无特殊说明，思考强度均为可用的最高档，无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜，预计可以在本周内完成。

且由于一些题目可能存在版权问题，本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷，如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

标签：人工智能原创

问题描述：

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要：

自己维护一个 LLM Benchmark 的想法开发调优

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。目前存在的问题如下：在 OJ 上评测有…

全称：SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型：

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)
Gemini 3.1 Pro

目前正在测试以下模型：

GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。

如无特殊说明，思考强度均为可用的最高档，无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜，预计可以在本周内完成。

且由于一些题目可能存在版权问题，本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷，如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

网友解答：

--【壹】--：

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要：

自己维护一个 LLM Benchmark 的想法开发调优

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。目前存在的问题如下：在 OJ 上评测有…

全称：SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型：

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)
Gemini 3.1 Pro

目前正在测试以下模型：

GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。

如无特殊说明，思考强度均为可用的最高档，无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜，预计可以在本周内完成。

且由于一些题目可能存在版权问题，本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷，如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

标签：人工智能原创

进展

下一步计划

一些声明

进展

下一步计划

一些声明

相关推荐

进展

下一步计划

一些声明

进展

下一步计划

一些声明

相关推荐