【SNSE Bench】目前进度预告帖

2026-04-11 08:262阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要:

自己维护一个 LLM Benchmark 的想法 开发调优
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。 因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。 目前存在的问题如下: 在 OJ 上评测有…

注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称:SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选,每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型:

  • Gemini 3 Flash
  • Kimi K2.5
  • Qwen 3.6 Plus
  • DeepSeek Web (20260405)
  • Gemini 3.1 Pro

目前正在测试以下模型:

  • GPT 5.4

目前没有可靠的 Claude 渠道,欢迎愿意提供的佬友联系。

如无特殊说明,思考强度均为可用的最高档,无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜,预计可以在本周内完成。

且由于一些题目可能存在版权问题,本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷,如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

但我做这个 Bench 是由于目前网络上在算法竞赛方面的各项 Benchmark 都存在较大缺陷,没有一个让我满意的 Bench。所以我想要来补全这个空白。但更希望以后有更优秀的算法竞赛 Benchmark 出现。

网友解答:
--【壹】--:

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要:

自己维护一个 LLM Benchmark 的想法 开发调优
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。 因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。 目前存在的问题如下: 在 OJ 上评测有…

注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称:SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选,每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型:

  • Gemini 3 Flash
  • Kimi K2.5
  • Qwen 3.6 Plus
  • DeepSeek Web (20260405)
  • Gemini 3.1 Pro

目前正在测试以下模型:

  • GPT 5.4

目前没有可靠的 Claude 渠道,欢迎愿意提供的佬友联系。

如无特殊说明,思考强度均为可用的最高档,无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜,预计可以在本周内完成。

且由于一些题目可能存在版权问题,本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷,如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

但我做这个 Bench 是由于目前网络上在算法竞赛方面的各项 Benchmark 都存在较大缺陷,没有一个让我满意的 Bench。所以我想要来补全这个空白。但更希望以后有更优秀的算法竞赛 Benchmark 出现。

问题描述:

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要:

自己维护一个 LLM Benchmark 的想法 开发调优
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。 因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。 目前存在的问题如下: 在 OJ 上评测有…

注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称:SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选,每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型:

  • Gemini 3 Flash
  • Kimi K2.5
  • Qwen 3.6 Plus
  • DeepSeek Web (20260405)
  • Gemini 3.1 Pro

目前正在测试以下模型:

  • GPT 5.4

目前没有可靠的 Claude 渠道,欢迎愿意提供的佬友联系。

如无特殊说明,思考强度均为可用的最高档,无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜,预计可以在本周内完成。

且由于一些题目可能存在版权问题,本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷,如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

但我做这个 Bench 是由于目前网络上在算法竞赛方面的各项 Benchmark 都存在较大缺陷,没有一个让我满意的 Bench。所以我想要来补全这个空白。但更希望以后有更优秀的算法竞赛 Benchmark 出现。

网友解答:
--【壹】--:

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要:

自己维护一个 LLM Benchmark 的想法 开发调优
目前的算法竞赛方面的 Benchmark 都存在一些问题,LiveCodeBenchPro 只有 CF 题目,且维护不积极,模型较少;vals.ai 上的 LiveCodeBench 分数已经饱和,IOI 缺乏部分模型的测试结果且题目风格也较为单一。 因此我打算自己搜集一些题目,维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。 目前存在的问题如下: 在 OJ 上评测有…

注意:尽管都是编程相关,算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称:SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选,每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型:

  • Gemini 3 Flash
  • Kimi K2.5
  • Qwen 3.6 Plus
  • DeepSeek Web (20260405)
  • Gemini 3.1 Pro

目前正在测试以下模型:

  • GPT 5.4

目前没有可靠的 Claude 渠道,欢迎愿意提供的佬友联系。

如无特殊说明,思考强度均为可用的最高档,无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

下一步计划

我将会在测试完 Gemini 3.1 Pro 与 GPT 5.4 后发布第一版的排行榜,预计可以在本周内完成。

且由于一些题目可能存在版权问题,本 Bench 以后也只会以排行榜的形式公开。

一些声明

这个 Bench 仍有许多缺陷,如题目 / 模型数量过少、每个模型只测试一遍、测试流程不规范、模型来源不正规等问题。

但我做这个 Bench 是由于目前网络上在算法竞赛方面的各项 Benchmark 都存在较大缺陷,没有一个让我满意的 Bench。所以我想要来补全这个空白。但更希望以后有更优秀的算法竞赛 Benchmark 出现。