中文榜:豆包保持国产第一 super clue
- 内容介绍
- 文章标签
- 相关推荐
Screenshot_20260331_0211381256×1786 348 KB
SuperCLUE中文大模型测评基准-AI评测榜单
这里是中文大模型能力对比的权威平台,为您提供全面、客观的大模型性能评估和排行榜单。SuperCLUE是独立、领先的中文通用大模型综合性测评基准,涵盖通用、文本、多模态、推理、Agent、AI应用及性能系列,为产业与学术研究提供重要参考。
全球第四,国产第一…
网友解答:--【壹】--:
终于更新了,这个榜单算是中文榜单里相对客观的了,上次更新还是12月
--【贰】--:
一堆文字动物logo里面一个唐女 感觉太搞笑了哈哈哈 豆包的logo是最不同的一点
--【叁】--:
瞄了一眼,在所谓的智能体任务规划上拉分了,不知道这个是怎么判定好与不好的
--【肆】--:
这帮人永远是榜单没输过,实际没赢过
--【伍】--:
野榜太多了 不值一提
--【陆】--:
哈?gemini3.1这么好吗
--【柒】--:
难道是中文语境表现不佳?
不懂喵
--【捌】--:
不用怀疑,我们用到的都是啥子•᎔•
--【玖】--:
很简单。
因为使用的是API,不是Gemini Web APP渠道
Gemini-3.1-Pro-Preview(high),说明用的是思考预算拉满的Gemini,不是网页版残血的人工智障Gemini
补充:
这种模型榜单都是按照研究者的立场来评选的,所以评选的结果很容易和消费者有区别
我写前端代码的时候,试过豆包的API和网页版,表现完全是天壤之别,API的豆包比网页版聪明,对指令的遵循也更好
--【拾】--:
商汤第一,难以想象,上面看到gpt-5.4(xhigh)代码能力15就感觉不靠谱了,这不是gpt最强的吗
--【拾壹】--:
单看这个图来说,这确实不太对啊,gpt虽然依旧不说人话,但是表现还是能打的啊,第十五名的话,我更相信测评用的API是某个不知名模型套壳的可能性更高一点
--【拾贰】--:
这就有点离谱了。。。 离了大谱了。。。
--【拾叁】--:
原来豆包辣么厉害嘛 ,
近阶段倒是被seedance2.0惊艳到了呢ww~
--【拾肆】--:
确实,二月末三月初,我在LMArena上问了一个问题,是和另一个模型的对比(忘记是哪个模型了)然后当时那个答案我觉得挺好的,我还专门去搜了,发现是豆包的模型。
--【拾伍】--:
有惊喜,代码能力这项给GPT都干哪去了,恭喜GPT-5.4荣获代码能力第十五名,甚至弱于gpt-oss-120b
image1641×846 123 KB
--【拾陆】--:
豆包这么厉害吗,为什么我的豆包有时候跟啥子一样
--【拾柒】--:
豆包做成全民级应用,现在做这么,是有迹可循的,24年就囤卡几十万张。人家领导层是有眼光,有水平的
--【拾捌】--:
豆包确实是国产里最好的
--【拾玖】--:
这榜在24年就烂完了,那时候商汤还第一呢
Screenshot_20260331_0211381256×1786 348 KB
SuperCLUE中文大模型测评基准-AI评测榜单
这里是中文大模型能力对比的权威平台,为您提供全面、客观的大模型性能评估和排行榜单。SuperCLUE是独立、领先的中文通用大模型综合性测评基准,涵盖通用、文本、多模态、推理、Agent、AI应用及性能系列,为产业与学术研究提供重要参考。
全球第四,国产第一…
网友解答:--【壹】--:
终于更新了,这个榜单算是中文榜单里相对客观的了,上次更新还是12月
--【贰】--:
一堆文字动物logo里面一个唐女 感觉太搞笑了哈哈哈 豆包的logo是最不同的一点
--【叁】--:
瞄了一眼,在所谓的智能体任务规划上拉分了,不知道这个是怎么判定好与不好的
--【肆】--:
这帮人永远是榜单没输过,实际没赢过
--【伍】--:
野榜太多了 不值一提
--【陆】--:
哈?gemini3.1这么好吗
--【柒】--:
难道是中文语境表现不佳?
不懂喵
--【捌】--:
不用怀疑,我们用到的都是啥子•᎔•
--【玖】--:
很简单。
因为使用的是API,不是Gemini Web APP渠道
Gemini-3.1-Pro-Preview(high),说明用的是思考预算拉满的Gemini,不是网页版残血的人工智障Gemini
补充:
这种模型榜单都是按照研究者的立场来评选的,所以评选的结果很容易和消费者有区别
我写前端代码的时候,试过豆包的API和网页版,表现完全是天壤之别,API的豆包比网页版聪明,对指令的遵循也更好
--【拾】--:
商汤第一,难以想象,上面看到gpt-5.4(xhigh)代码能力15就感觉不靠谱了,这不是gpt最强的吗
--【拾壹】--:
单看这个图来说,这确实不太对啊,gpt虽然依旧不说人话,但是表现还是能打的啊,第十五名的话,我更相信测评用的API是某个不知名模型套壳的可能性更高一点
--【拾贰】--:
这就有点离谱了。。。 离了大谱了。。。
--【拾叁】--:
原来豆包辣么厉害嘛 ,
近阶段倒是被seedance2.0惊艳到了呢ww~
--【拾肆】--:
确实,二月末三月初,我在LMArena上问了一个问题,是和另一个模型的对比(忘记是哪个模型了)然后当时那个答案我觉得挺好的,我还专门去搜了,发现是豆包的模型。
--【拾伍】--:
有惊喜,代码能力这项给GPT都干哪去了,恭喜GPT-5.4荣获代码能力第十五名,甚至弱于gpt-oss-120b
image1641×846 123 KB
--【拾陆】--:
豆包这么厉害吗,为什么我的豆包有时候跟啥子一样
--【拾柒】--:
豆包做成全民级应用,现在做这么,是有迹可循的,24年就囤卡几十万张。人家领导层是有眼光,有水平的
--【拾捌】--:
豆包确实是国产里最好的
--【拾玖】--:
这榜在24年就烂完了,那时候商汤还第一呢

