【SNSE Bench】目前进度预告帖

2026-04-11 08:261阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

个人维护的基于算法竞赛题目的微型 LLM Benchmark。

前情提要：

自己维护一个 LLM Benchmark 的想法开发调优

目前的算法竞赛方面的 Benchmark 都存在一些问题，LiveCodeBenchPro 只有 CF 题目，且维护不积极，模型较少；vals.ai 上的 LiveCodeBench 分数已经饱和，IOI 缺乏部分模型的测试结果且题目风格也较为单一。因此我打算自己搜集一些题目，维护一个小型的 Benchmark。并且我也不打算搞自动化评测工作流。目前存在的问题如下：在 OJ 上评测有…

注意：尽管都是编程相关，算法竞赛题目所需的能力与软件工程 / Coding Agent 并不完全重合。模型在 SNSE Bench 中的表现与其软件工程能力并无必然联系。

全称：SNSE’s Not Software Engineering Bench。

进展

已经结束了第一批题目的挑选，每道题目都设计了子任务。后续会继续更新。

目前已经测试完了以下模型：

Gemini 3 Flash
Kimi K2.5
Qwen 3.6 Plus
DeepSeek Web (20260405)
Gemini 3.1 Pro

目前正在测试以下模型：

GPT 5.4

目前没有可靠的 Claude 渠道，欢迎愿意提供的佬友联系。

如无特殊说明，思考强度均为可用的最高档，无工具调用。

模型均来自于一些平台的网页对话与一些公益站。

阅读全文

标签：人工智能原创