豆包2.0好像真有说法？

2026-04-11 13:511阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

刚开始我不以为意，但看知乎某答主测了逻辑能力结果出人意外的好
先说一下，这位答主经常测评大模型，用的是私有非公开题库，所以不存在被污染的可能，他测评的其他模型排名都挺符合我认知的，所以我觉得测试成绩是有代表性的
但无奈其他benchmark，比如livebench和Analysis都没有豆包2.0的测评成绩，所以缺乏对照，特意请教下佬友们意见
LLM Benchmark Dashboard
image1089×565 41.7 KB
当然，这里说的是Doubao-Seed-2.0-Pro的逻辑推理能力，不是Doubao-Code，也不是编码能力，编程方面最强排名应该是挺难被撼动的

网友解答：

--【壹】--：

你可以自己测试一下，注意：reasoning_effort设置为high；不要看Doubao-Seed-2.0-Pro的思维链；……

另外，每一次见到Artificial Analysis我都要说一下它在我眼里是个野榜，和实际情况差得远，受刷榜影响很大（但AA的私有榜单如Omniscience值得一看）

--【贰】--：

这个博主叫大模型观察员吧？

--【叁】--：

多模态这一块，可能更强一些，看到一个博主的文章说的。

--【肆】--：

不可能比我家Gemini 3 Pro强

--【伍】--：

期待一波，话说DS v4怎么还没消息

--【陆】--：

Gemini知识量无敌，等正式版出来稳超豆包肯定没悬念，谷歌在数据这一块简直无敌

--【柒】--：

der 包 2.0 确实不错，app 端有几个我觉得不想它能解决的有点复杂的问题也能解决，直逼哈基米 3 Pro 了，多模态能力好像升级也不小，至少我用下来觉得至少到了能用的水平

--【捌】--：

toyama nao

--【玖】--：

请看佬友们的测试

豆包2.0新模型简单测试开发调优

[098938413ab71404ecb071d230f0d55f] 跑分秒天秒地秒空气，准备从几个方面测试一下 1，图片理解 https://linux.do/t/topic/1614904/8?u=user1703 2，画面分析 https://linux.do/t/topic/1614904/9?u=user1703 https://linux.do/t/topic/16149…

豆包2.0又SOTA了？我的评价是：抬走开发调优

首先豆包网页上的模型是残血的 [image] 区一样然后我专门去火山引擎开了个API来跑测试 [image] 你究竟吃了多少claude [image] 贪吃蛇不是你自己的案例吗 [image] 我选的是high没错啊 [image] 红警倒还凑活，可以也做了一坨平均每个题目都要思考300-500秒，有这时间我为什么不去用5.3 codex-xhigh呢 [im…

--【拾】--：

2.0貌似还是beta吧

--【拾壹】--：

gemini你们最近用的ok吗？我的网页版蠢哭了

--【拾贰】--：

看着是厉害不少

--【拾叁】--：

另外，好奇除了livebench外还有哪些benchmark能测评逻辑推理能力？CL-Bench算不算？

--【拾肆】--：

代码不太行吧

--【拾伍】--：

这个知乎博主的评测标准不就是按他自己的喜好来换题罢了，且不说论坛里的测试，还不如你自己用一下，把平常会用到的问题都问一下的有用

--【拾陆】--：

豆包之前以幻觉率低为特长，这个2.0可能确实有实力
榜单不错，收藏了，又多一个参考

--【拾柒】--：

这个测试的是逻辑推理，既不是代码也不是数学

--【拾捌】--：

不太看好字节的模型

--【拾玖】--：

火山方舟平台可以用上
image841×490 40.3 KB

标签：人工智能