DeepSeek-V4-Pro Benchmark简单解读
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
网友解答:
--【壹】--:
加粗为该行最高分。
| 类别 | 基准测试 | 指标 | 测什么 | DS-V4-Pro Max | DS-V4-Flash Max | Kimi K2.6 | GLM-5.1 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|---|---|---|---|---|---|
| 知识与推理 | MMLU-Pro | EM | 57+学科通用知识广度 | 87.5 | 86.2 | 87.1 | 86.0 | 89.1 | 87.5 | 91.0 |
| SimpleQA-Verified | Pass@1 | 事实性问答,检测幻觉 | 57.9 | 34.1 | 36.9 | 38.1 | 46.2 | 45.3 | 75.6 | |
| Chinese-SimpleQA | Pass@1 | 中文事实性知识准确度 | 84.4 | 78.9 | 75.9 | 75.0 | 76.2 | 76.8 | 85.9 | |
| GPQA Diamond | Pass@1 | 博士级专家推理(物化生) | 90.1 | 88.1 | 90.5 | 86.2 | 91.3 | 93.0 | 94.3 | |
| HLE | Pass@1 | “人类最后的考试”,极难综合题 | 37.7 | 34.8 | 36.4 | 34.7 | 40.0 | 39.8 | 44.4 | |
| LiveCodeBench | Pass@1 | 实时更新的编程题(防记忆) | 93.5 | 91.6 | 89.6 | – | 88.8 | – | 91.7 | |
| Codeforces | Rating | 在线编程竞赛 Elo 排名 | 3206 | 3052 | – | – | – | 3168 | 3052 | |
| HMMT 2026 Feb | Pass@1 | 哈佛-MIT 数学竞赛真题 | 95.2 | 94.8 | 92.7 | 89.4 | 96.2 | 97.7 | 94.7 | |
| IMOAnswerBench | Pass@1 | 国际数学奥赛求解能力 | 89.8 | 88.4 | 86.0 | 83.8 | 75.3 | 91.4 | 81.0 | |
| Apex | Pass@1 | 极高难度综合推理 | 38.3 | 33.0 | 24.0 | 11.5 | 34.5 | 54.1 | 60.9 | |
| Apex Shortlist | Pass@1 | Apex 精选难题子集 | 90.2 | 85.7 | 75.5 | 72.4 | 85.9 | 78.1 | 89.1 | |
| 长上下文 | MRCR 1M | MMR | 百万 token 多轮信息检索 | 83.5 | 78.7 | – | – | 92.9 | – | 76.3 |
| CorpusQA 1M | ACC | 百万 token 跨文档问答 | 62.0 | 60.5 | – | – | 71.7 | – | 53.8 | |
| 智能体 | Terminal Bench 2.0 | Acc | 真实终端多步命令行操作 | 67.9 | 56.9 | 66.7 | 63.5 | 65.4 | 75.1 | 68.5 |
| SWE Verified | Resolved | 真实 GitHub issue 修复 | 80.6 | 79.0 | 80.2 | – | 80.8 | – | 80.6 | |
| SWE Pro | Resolved | SWE-bench 加难版 | 55.4 | 52.6 | 58.6 | 58.4 | 57.3 | 57.7 | 54.2 | |
| SWE Multilingual | Resolved | 多语言真实工程修复 | 76.2 | 73.3 | 76.7 | 73.3 | 77.5 | – | – | |
| BrowseComp | Pass@1 | 网页浏览与信息检索 | 83.4 | 73.2 | 83.2 | 79.3 | 83.7 | 82.7 | 85.9 | |
| HLE w/tools | Pass@1 | 借助工具解极难题 | 48.2 | 45.1 | 54.0 | 50.4 | 53.1 | 52.0 | 51.6 | |
| GDPval-AA | Elo | 有经济价值的真实工作任务 | 1554 | 1395 | 1482 | 1535 | 1619 | 1674 | 1314 | |
| MCPAtlas Public | Pass@1 | MCP 工具调用泛化能力 | 73.6 | 69.0 | 66.6 | 71.8 | 73.8 | 67.2 | 69.2 | |
| Toolathlon | Pass@1 | 长流程多工具连续调用 | 51.8 | 47.8 | 50.0 | 40.7 | 47.2 | 54.6 | 48.8 |
核心结论
V4-Pro-Max 的优势领域(开源最强 / 全场最强)
- LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
- Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
- Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
- Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
- SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)
各家模型各自领先的领域
| 模型 | 强项 |
|---|---|
| Gemini 3.1 Pro | 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4) |
| GPT-5.4 | 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674) |
| Claude Opus 4.6 | 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5) |
| DeepSeek V4-Pro | 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识 |
| Kimi K2.6 | SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出 |
--【壹】--:
加粗为该行最高分。
| 类别 | 基准测试 | 指标 | 测什么 | DS-V4-Pro Max | DS-V4-Flash Max | Kimi K2.6 | GLM-5.1 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|---|---|---|---|---|---|
| 知识与推理 | MMLU-Pro | EM | 57+学科通用知识广度 | 87.5 | 86.2 | 87.1 | 86.0 | 89.1 | 87.5 | 91.0 |
| SimpleQA-Verified | Pass@1 | 事实性问答,检测幻觉 | 57.9 | 34.1 | 36.9 | 38.1 | 46.2 | 45.3 | 75.6 | |
| Chinese-SimpleQA | Pass@1 | 中文事实性知识准确度 | 84.4 | 78.9 | 75.9 | 75.0 | 76.2 | 76.8 | 85.9 | |
| GPQA Diamond | Pass@1 | 博士级专家推理(物化生) | 90.1 | 88.1 | 90.5 | 86.2 | 91.3 | 93.0 | 94.3 | |
| HLE | Pass@1 | “人类最后的考试”,极难综合题 | 37.7 | 34.8 | 36.4 | 34.7 | 40.0 | 39.8 | 44.4 | |
| LiveCodeBench | Pass@1 | 实时更新的编程题(防记忆) | 93.5 | 91.6 | 89.6 | – | 88.8 | – | 91.7 | |
| Codeforces | Rating | 在线编程竞赛 Elo 排名 | 3206 | 3052 | – | – | – | 3168 | 3052 | |
| HMMT 2026 Feb | Pass@1 | 哈佛-MIT 数学竞赛真题 | 95.2 | 94.8 | 92.7 | 89.4 | 96.2 | 97.7 | 94.7 | |
| IMOAnswerBench | Pass@1 | 国际数学奥赛求解能力 | 89.8 | 88.4 | 86.0 | 83.8 | 75.3 | 91.4 | 81.0 | |
| Apex | Pass@1 | 极高难度综合推理 | 38.3 | 33.0 | 24.0 | 11.5 | 34.5 | 54.1 | 60.9 | |
| Apex Shortlist | Pass@1 | Apex 精选难题子集 | 90.2 | 85.7 | 75.5 | 72.4 | 85.9 | 78.1 | 89.1 | |
| 长上下文 | MRCR 1M | MMR | 百万 token 多轮信息检索 | 83.5 | 78.7 | – | – | 92.9 | – | 76.3 |
| CorpusQA 1M | ACC | 百万 token 跨文档问答 | 62.0 | 60.5 | – | – | 71.7 | – | 53.8 | |
| 智能体 | Terminal Bench 2.0 | Acc | 真实终端多步命令行操作 | 67.9 | 56.9 | 66.7 | 63.5 | 65.4 | 75.1 | 68.5 |
| SWE Verified | Resolved | 真实 GitHub issue 修复 | 80.6 | 79.0 | 80.2 | – | 80.8 | – | 80.6 | |
| SWE Pro | Resolved | SWE-bench 加难版 | 55.4 | 52.6 | 58.6 | 58.4 | 57.3 | 57.7 | 54.2 | |
| SWE Multilingual | Resolved | 多语言真实工程修复 | 76.2 | 73.3 | 76.7 | 73.3 | 77.5 | – | – | |
| BrowseComp | Pass@1 | 网页浏览与信息检索 | 83.4 | 73.2 | 83.2 | 79.3 | 83.7 | 82.7 | 85.9 | |
| HLE w/tools | Pass@1 | 借助工具解极难题 | 48.2 | 45.1 | 54.0 | 50.4 | 53.1 | 52.0 | 51.6 | |
| GDPval-AA | Elo | 有经济价值的真实工作任务 | 1554 | 1395 | 1482 | 1535 | 1619 | 1674 | 1314 | |
| MCPAtlas Public | Pass@1 | MCP 工具调用泛化能力 | 73.6 | 69.0 | 66.6 | 71.8 | 73.8 | 67.2 | 69.2 | |
| Toolathlon | Pass@1 | 长流程多工具连续调用 | 51.8 | 47.8 | 50.0 | 40.7 | 47.2 | 54.6 | 48.8 |
核心结论
V4-Pro-Max 的优势领域(开源最强 / 全场最强)
- LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
- Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
- Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
- Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
- SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)
各家模型各自领先的领域
| 模型 | 强项 |
|---|---|
| Gemini 3.1 Pro | 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4) |
| GPT-5.4 | 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674) |
| Claude Opus 4.6 | 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5) |
| DeepSeek V4-Pro | 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识 |
| Kimi K2.6 | SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出 |
问题描述:
网友解答:
--【壹】--:
加粗为该行最高分。
| 类别 | 基准测试 | 指标 | 测什么 | DS-V4-Pro Max | DS-V4-Flash Max | Kimi K2.6 | GLM-5.1 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|---|---|---|---|---|---|
| 知识与推理 | MMLU-Pro | EM | 57+学科通用知识广度 | 87.5 | 86.2 | 87.1 | 86.0 | 89.1 | 87.5 | 91.0 |
| SimpleQA-Verified | Pass@1 | 事实性问答,检测幻觉 | 57.9 | 34.1 | 36.9 | 38.1 | 46.2 | 45.3 | 75.6 | |
| Chinese-SimpleQA | Pass@1 | 中文事实性知识准确度 | 84.4 | 78.9 | 75.9 | 75.0 | 76.2 | 76.8 | 85.9 | |
| GPQA Diamond | Pass@1 | 博士级专家推理(物化生) | 90.1 | 88.1 | 90.5 | 86.2 | 91.3 | 93.0 | 94.3 | |
| HLE | Pass@1 | “人类最后的考试”,极难综合题 | 37.7 | 34.8 | 36.4 | 34.7 | 40.0 | 39.8 | 44.4 | |
| LiveCodeBench | Pass@1 | 实时更新的编程题(防记忆) | 93.5 | 91.6 | 89.6 | – | 88.8 | – | 91.7 | |
| Codeforces | Rating | 在线编程竞赛 Elo 排名 | 3206 | 3052 | – | – | – | 3168 | 3052 | |
| HMMT 2026 Feb | Pass@1 | 哈佛-MIT 数学竞赛真题 | 95.2 | 94.8 | 92.7 | 89.4 | 96.2 | 97.7 | 94.7 | |
| IMOAnswerBench | Pass@1 | 国际数学奥赛求解能力 | 89.8 | 88.4 | 86.0 | 83.8 | 75.3 | 91.4 | 81.0 | |
| Apex | Pass@1 | 极高难度综合推理 | 38.3 | 33.0 | 24.0 | 11.5 | 34.5 | 54.1 | 60.9 | |
| Apex Shortlist | Pass@1 | Apex 精选难题子集 | 90.2 | 85.7 | 75.5 | 72.4 | 85.9 | 78.1 | 89.1 | |
| 长上下文 | MRCR 1M | MMR | 百万 token 多轮信息检索 | 83.5 | 78.7 | – | – | 92.9 | – | 76.3 |
| CorpusQA 1M | ACC | 百万 token 跨文档问答 | 62.0 | 60.5 | – | – | 71.7 | – | 53.8 | |
| 智能体 | Terminal Bench 2.0 | Acc | 真实终端多步命令行操作 | 67.9 | 56.9 | 66.7 | 63.5 | 65.4 | 75.1 | 68.5 |
| SWE Verified | Resolved | 真实 GitHub issue 修复 | 80.6 | 79.0 | 80.2 | – | 80.8 | – | 80.6 | |
| SWE Pro | Resolved | SWE-bench 加难版 | 55.4 | 52.6 | 58.6 | 58.4 | 57.3 | 57.7 | 54.2 | |
| SWE Multilingual | Resolved | 多语言真实工程修复 | 76.2 | 73.3 | 76.7 | 73.3 | 77.5 | – | – | |
| BrowseComp | Pass@1 | 网页浏览与信息检索 | 83.4 | 73.2 | 83.2 | 79.3 | 83.7 | 82.7 | 85.9 | |
| HLE w/tools | Pass@1 | 借助工具解极难题 | 48.2 | 45.1 | 54.0 | 50.4 | 53.1 | 52.0 | 51.6 | |
| GDPval-AA | Elo | 有经济价值的真实工作任务 | 1554 | 1395 | 1482 | 1535 | 1619 | 1674 | 1314 | |
| MCPAtlas Public | Pass@1 | MCP 工具调用泛化能力 | 73.6 | 69.0 | 66.6 | 71.8 | 73.8 | 67.2 | 69.2 | |
| Toolathlon | Pass@1 | 长流程多工具连续调用 | 51.8 | 47.8 | 50.0 | 40.7 | 47.2 | 54.6 | 48.8 |
核心结论
V4-Pro-Max 的优势领域(开源最强 / 全场最强)
- LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
- Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
- Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
- Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
- SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)
各家模型各自领先的领域
| 模型 | 强项 |
|---|---|
| Gemini 3.1 Pro | 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4) |
| GPT-5.4 | 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674) |
| Claude Opus 4.6 | 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5) |
| DeepSeek V4-Pro | 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识 |
| Kimi K2.6 | SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出 |
--【壹】--:
加粗为该行最高分。
| 类别 | 基准测试 | 指标 | 测什么 | DS-V4-Pro Max | DS-V4-Flash Max | Kimi K2.6 | GLM-5.1 | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|---|---|---|---|---|---|
| 知识与推理 | MMLU-Pro | EM | 57+学科通用知识广度 | 87.5 | 86.2 | 87.1 | 86.0 | 89.1 | 87.5 | 91.0 |
| SimpleQA-Verified | Pass@1 | 事实性问答,检测幻觉 | 57.9 | 34.1 | 36.9 | 38.1 | 46.2 | 45.3 | 75.6 | |
| Chinese-SimpleQA | Pass@1 | 中文事实性知识准确度 | 84.4 | 78.9 | 75.9 | 75.0 | 76.2 | 76.8 | 85.9 | |
| GPQA Diamond | Pass@1 | 博士级专家推理(物化生) | 90.1 | 88.1 | 90.5 | 86.2 | 91.3 | 93.0 | 94.3 | |
| HLE | Pass@1 | “人类最后的考试”,极难综合题 | 37.7 | 34.8 | 36.4 | 34.7 | 40.0 | 39.8 | 44.4 | |
| LiveCodeBench | Pass@1 | 实时更新的编程题(防记忆) | 93.5 | 91.6 | 89.6 | – | 88.8 | – | 91.7 | |
| Codeforces | Rating | 在线编程竞赛 Elo 排名 | 3206 | 3052 | – | – | – | 3168 | 3052 | |
| HMMT 2026 Feb | Pass@1 | 哈佛-MIT 数学竞赛真题 | 95.2 | 94.8 | 92.7 | 89.4 | 96.2 | 97.7 | 94.7 | |
| IMOAnswerBench | Pass@1 | 国际数学奥赛求解能力 | 89.8 | 88.4 | 86.0 | 83.8 | 75.3 | 91.4 | 81.0 | |
| Apex | Pass@1 | 极高难度综合推理 | 38.3 | 33.0 | 24.0 | 11.5 | 34.5 | 54.1 | 60.9 | |
| Apex Shortlist | Pass@1 | Apex 精选难题子集 | 90.2 | 85.7 | 75.5 | 72.4 | 85.9 | 78.1 | 89.1 | |
| 长上下文 | MRCR 1M | MMR | 百万 token 多轮信息检索 | 83.5 | 78.7 | – | – | 92.9 | – | 76.3 |
| CorpusQA 1M | ACC | 百万 token 跨文档问答 | 62.0 | 60.5 | – | – | 71.7 | – | 53.8 | |
| 智能体 | Terminal Bench 2.0 | Acc | 真实终端多步命令行操作 | 67.9 | 56.9 | 66.7 | 63.5 | 65.4 | 75.1 | 68.5 |
| SWE Verified | Resolved | 真实 GitHub issue 修复 | 80.6 | 79.0 | 80.2 | – | 80.8 | – | 80.6 | |
| SWE Pro | Resolved | SWE-bench 加难版 | 55.4 | 52.6 | 58.6 | 58.4 | 57.3 | 57.7 | 54.2 | |
| SWE Multilingual | Resolved | 多语言真实工程修复 | 76.2 | 73.3 | 76.7 | 73.3 | 77.5 | – | – | |
| BrowseComp | Pass@1 | 网页浏览与信息检索 | 83.4 | 73.2 | 83.2 | 79.3 | 83.7 | 82.7 | 85.9 | |
| HLE w/tools | Pass@1 | 借助工具解极难题 | 48.2 | 45.1 | 54.0 | 50.4 | 53.1 | 52.0 | 51.6 | |
| GDPval-AA | Elo | 有经济价值的真实工作任务 | 1554 | 1395 | 1482 | 1535 | 1619 | 1674 | 1314 | |
| MCPAtlas Public | Pass@1 | MCP 工具调用泛化能力 | 73.6 | 69.0 | 66.6 | 71.8 | 73.8 | 67.2 | 69.2 | |
| Toolathlon | Pass@1 | 长流程多工具连续调用 | 51.8 | 47.8 | 50.0 | 40.7 | 47.2 | 54.6 | 48.8 |
核心结论
V4-Pro-Max 的优势领域(开源最强 / 全场最强)
- LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
- Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
- Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
- Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
- SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)
各家模型各自领先的领域
| 模型 | 强项 |
|---|---|
| Gemini 3.1 Pro | 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4) |
| GPT-5.4 | 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674) |
| Claude Opus 4.6 | 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5) |
| DeepSeek V4-Pro | 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识 |
| Kimi K2.6 | SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出 |

