豆包2.0好像真有说法?

2026-04-11 13:510阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

刚开始我不以为意,但看知乎某答主测了逻辑能力结果出人意外的好
先说一下,这位答主经常测评大模型,用的是私有非公开题库,所以不存在被污染的可能,他测评的其他模型排名都挺符合我认知的,所以我觉得测试成绩是有代表性的
但无奈其他benchmark,比如livebench和Analysis都没有豆包2.0的测评成绩,所以缺乏对照,特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然,这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力,不是Doubao-Code,也不是编码能力,编程方面最强排名应该是挺难被撼动的

网友解答:
--【壹】--:

你可以自己测试一下,注意:reasoning_effort设置为high;不要看Doubao-Seed-2.0-Pro的思维链;……

另外,每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜,和实际情况差得远,受刷榜影响很大(但AA的私有榜单如Omniscience值得一看)


--【贰】--:

这个博主叫大模型观察员吧?


--【叁】--:

多模态这一块,可能更强一些,看到一个博主的文章说的。

阅读全文
标签:人工智能
问题描述:

刚开始我不以为意,但看知乎某答主测了逻辑能力结果出人意外的好
先说一下,这位答主经常测评大模型,用的是私有非公开题库,所以不存在被污染的可能,他测评的其他模型排名都挺符合我认知的,所以我觉得测试成绩是有代表性的
但无奈其他benchmark,比如livebench和Analysis都没有豆包2.0的测评成绩,所以缺乏对照,特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然,这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力,不是Doubao-Code,也不是编码能力,编程方面最强排名应该是挺难被撼动的

网友解答:
--【壹】--:

你可以自己测试一下,注意:reasoning_effort设置为high;不要看Doubao-Seed-2.0-Pro的思维链;……

另外,每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜,和实际情况差得远,受刷榜影响很大(但AA的私有榜单如Omniscience值得一看)


--【贰】--:

这个博主叫大模型观察员吧?


--【叁】--:

多模态这一块,可能更强一些,看到一个博主的文章说的。

阅读全文
标签:人工智能