豆包2.0好像真有说法?

2026-04-11 13:511阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

刚开始我不以为意,但看知乎某答主测了逻辑能力结果出人意外的好
先说一下,这位答主经常测评大模型,用的是私有非公开题库,所以不存在被污染的可能,他测评的其他模型排名都挺符合我认知的,所以我觉得测试成绩是有代表性的
但无奈其他benchmark,比如livebench和Analysis都没有豆包2.0的测评成绩,所以缺乏对照,特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然,这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力,不是Doubao-Code,也不是编码能力,编程方面最强排名应该是挺难被撼动的

网友解答:
--【壹】--:

你可以自己测试一下,注意:reasoning_effort设置为high;不要看Doubao-Seed-2.0-Pro的思维链;……

另外,每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜,和实际情况差得远,受刷榜影响很大(但AA的私有榜单如Omniscience值得一看)


--【贰】--:

这个博主叫大模型观察员吧?


--【叁】--:

多模态这一块,可能更强一些,看到一个博主的文章说的。


--【肆】--:

不可能比我家Gemini 3 Pro强


--【伍】--:

期待一波,话说DS v4怎么还没消息


--【陆】--:

Gemini知识量无敌,等正式版出来稳超豆包肯定没悬念,谷歌在数据这一块简直无敌


--【柒】--:

der 包 2.0 确实不错,app 端有几个我觉得不想它能解决的有点复杂的问题也能解决,直逼哈基米 3 Pro 了,多模态能力好像升级也不小,至少我用下来觉得至少到了能用的水平


--【捌】--:

toyama nao


--【玖】--:

请看佬友们的测试

豆包2.0新模型简单测试 开发调优
[098938413ab71404ecb071d230f0d55f] 跑分秒天秒地秒空气,准备从几个方面测试一下 1,图片理解 https://linux.do/t/topic/1614904/8?u=user1703 2,画面分析 https://linux.do/t/topic/1614904/9?u=user1703 https://linux.do/t/topic/16149…
豆包2.0又SOTA了?我的评价是:抬走 开发调优
首先豆包网页上的模型是残血的 [image] 区一样 然后我专门去火山引擎开了个API来跑测试 [image] 你究竟吃了多少claude [image] 贪吃蛇不是你自己的案例吗 [image] 我选的是high没错啊 [image] 红警倒还凑活,可以也做了一坨 平均每个题目都要思考300-500秒,有这时间我为什么不去用5.3 codex-xhigh呢 [im…

--【拾】--:

2.0貌似还是beta吧


--【拾壹】--:

gemini你们最近用的ok吗?我的网页版蠢哭了


--【拾贰】--:

看着是厉害不少


--【拾叁】--:

另外,好奇除了livebench外还有哪些benchmark能测评逻辑推理能力?CL-Bench算不算?


--【拾肆】--:

代码不太行吧


--【拾伍】--:

这个知乎博主的评测标准不就是按他自己的喜好来换题罢了,且不说论坛里的测试,还不如你自己用一下,把平常会用到的问题都问一下的有用


--【拾陆】--:

豆包之前以幻觉率低为特长,这个2.0可能确实有实力
榜单不错,收藏了,又多一个参考


--【拾柒】--:

这个测试的是逻辑推理,既不是代码也不是数学


--【拾捌】--:

不太看好字节的模型


--【拾玖】--:

火山方舟平台可以用上
image841×490 40.3 KB

标签:人工智能
问题描述:

刚开始我不以为意,但看知乎某答主测了逻辑能力结果出人意外的好
先说一下,这位答主经常测评大模型,用的是私有非公开题库,所以不存在被污染的可能,他测评的其他模型排名都挺符合我认知的,所以我觉得测试成绩是有代表性的
但无奈其他benchmark,比如livebench和Analysis都没有豆包2.0的测评成绩,所以缺乏对照,特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然,这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力,不是Doubao-Code,也不是编码能力,编程方面最强排名应该是挺难被撼动的

网友解答:
--【壹】--:

你可以自己测试一下,注意:reasoning_effort设置为high;不要看Doubao-Seed-2.0-Pro的思维链;……

另外,每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜,和实际情况差得远,受刷榜影响很大(但AA的私有榜单如Omniscience值得一看)


--【贰】--:

这个博主叫大模型观察员吧?


--【叁】--:

多模态这一块,可能更强一些,看到一个博主的文章说的。


--【肆】--:

不可能比我家Gemini 3 Pro强


--【伍】--:

期待一波,话说DS v4怎么还没消息


--【陆】--:

Gemini知识量无敌,等正式版出来稳超豆包肯定没悬念,谷歌在数据这一块简直无敌


--【柒】--:

der 包 2.0 确实不错,app 端有几个我觉得不想它能解决的有点复杂的问题也能解决,直逼哈基米 3 Pro 了,多模态能力好像升级也不小,至少我用下来觉得至少到了能用的水平


--【捌】--:

toyama nao


--【玖】--:

请看佬友们的测试

豆包2.0新模型简单测试 开发调优
[098938413ab71404ecb071d230f0d55f] 跑分秒天秒地秒空气,准备从几个方面测试一下 1,图片理解 https://linux.do/t/topic/1614904/8?u=user1703 2,画面分析 https://linux.do/t/topic/1614904/9?u=user1703 https://linux.do/t/topic/16149…
豆包2.0又SOTA了?我的评价是:抬走 开发调优
首先豆包网页上的模型是残血的 [image] 区一样 然后我专门去火山引擎开了个API来跑测试 [image] 你究竟吃了多少claude [image] 贪吃蛇不是你自己的案例吗 [image] 我选的是high没错啊 [image] 红警倒还凑活,可以也做了一坨 平均每个题目都要思考300-500秒,有这时间我为什么不去用5.3 codex-xhigh呢 [im…

--【拾】--:

2.0貌似还是beta吧


--【拾壹】--:

gemini你们最近用的ok吗?我的网页版蠢哭了


--【拾贰】--:

看着是厉害不少


--【拾叁】--:

另外,好奇除了livebench外还有哪些benchmark能测评逻辑推理能力?CL-Bench算不算?


--【拾肆】--:

代码不太行吧


--【拾伍】--:

这个知乎博主的评测标准不就是按他自己的喜好来换题罢了,且不说论坛里的测试,还不如你自己用一下,把平常会用到的问题都问一下的有用


--【拾陆】--:

豆包之前以幻觉率低为特长,这个2.0可能确实有实力
榜单不错,收藏了,又多一个参考


--【拾柒】--:

这个测试的是逻辑推理,既不是代码也不是数学


--【拾捌】--:

不太看好字节的模型


--【拾玖】--:

火山方舟平台可以用上
image841×490 40.3 KB

标签:人工智能