豆包2.0好像真有说法？

2026-04-11 13:510阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

刚开始我不以为意，但看知乎某答主测了逻辑能力结果出人意外的好
先说一下，这位答主经常测评大模型，用的是私有非公开题库，所以不存在被污染的可能，他测评的其他模型排名都挺符合我认知的，所以我觉得测试成绩是有代表性的
但无奈其他benchmark，比如livebench和Analysis都没有豆包2.0的测评成绩，所以缺乏对照，特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然，这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力，不是Doubao-Code，也不是编码能力，编程方面最强排名应该是挺难被撼动的

网友解答：

--【壹】--：

你可以自己测试一下，注意：reasoning_effort设置为high；不要看Doubao-Seed-2.0-Pro的思维链；……

另外，每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜，和实际情况差得远，受刷榜影响很大（但AA的私有榜单如Omniscience值得一看）

--【贰】--：

这个博主叫大模型观察员吧？

--【叁】--：

多模态这一块，可能更强一些，看到一个博主的文章说的。

标签：人工智能

问题描述：

刚开始我不以为意，但看知乎某答主测了逻辑能力结果出人意外的好
先说一下，这位答主经常测评大模型，用的是私有非公开题库，所以不存在被污染的可能，他测评的其他模型排名都挺符合我认知的，所以我觉得测试成绩是有代表性的
但无奈其他benchmark，比如livebench和Analysis都没有豆包2.0的测评成绩，所以缺乏对照，特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然，这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力，不是Doubao-Code，也不是编码能力，编程方面最强排名应该是挺难被撼动的

网友解答：

--【壹】--：

你可以自己测试一下，注意：reasoning_effort设置为high；不要看Doubao-Seed-2.0-Pro的思维链；……

另外，每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜，和实际情况差得远，受刷榜影响很大（但AA的私有榜单如Omniscience值得一看）

--【贰】--：

这个博主叫大模型观察员吧？

--【叁】--：

多模态这一块，可能更强一些，看到一个博主的文章说的。

标签：人工智能