DeepSeek-V4-Pro Benchmark简单解读

2026-04-29 10:206阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

加粗为该行最高分。

类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High
知识与推理 MMLU-Pro EM 57+学科通用知识广度 87.5 86.2 87.1 86.0 89.1 87.5 91.0
SimpleQA-Verified Pass@1 事实性问答,检测幻觉 57.9 34.1 36.9 38.1 46.2 45.3 75.6
Chinese-SimpleQA Pass@1 中文事实性知识准确度 84.4 78.9 75.9 75.0 76.2 76.8 85.9
GPQA Diamond Pass@1 博士级专家推理(物化生) 90.1 88.1 90.5 86.2 91.3 93.0 94.3
HLE Pass@1 “人类最后的考试”,极难综合题 37.7 34.8 36.4 34.7 40.0 39.8 44.4
LiveCodeBench Pass@1 实时更新的编程题(防记忆) 93.5 91.6 89.6 88.8 91.7
Codeforces Rating 在线编程竞赛 Elo 排名 3206 3052 3168 3052
HMMT 2026 Feb Pass@1 哈佛-MIT 数学竞赛真题 95.2 94.8 92.7 89.4 96.2 97.7 94.7
IMOAnswerBench Pass@1 国际数学奥赛求解能力 89.8 88.4 86.0 83.8 75.3 91.4 81.0
Apex Pass@1 极高难度综合推理 38.3 33.0 24.0 11.5 34.5 54.1 60.9
Apex Shortlist Pass@1 Apex 精选难题子集 90.2 85.7 75.5 72.4 85.9 78.1 89.1
长上下文 MRCR 1M MMR 百万 token 多轮信息检索 83.5 78.7 92.9 76.3
CorpusQA 1M ACC 百万 token 跨文档问答 62.0 60.5 71.7 53.8
智能体 Terminal Bench 2.0 Acc 真实终端多步命令行操作 67.9 56.9 66.7 63.5 65.4 75.1 68.5
SWE Verified Resolved 真实 GitHub issue 修复 80.6 79.0 80.2 80.8 80.6
SWE Pro Resolved SWE-bench 加难版 55.4 52.6 58.6 58.4 57.3 57.7 54.2
SWE Multilingual Resolved 多语言真实工程修复 76.2 73.3 76.7 73.3 77.5
BrowseComp Pass@1 网页浏览与信息检索 83.4 73.2 83.2 79.3 83.7 82.7 85.9
HLE w/tools Pass@1 借助工具解极难题 48.2 45.1 54.0 50.4 53.1 52.0 51.6
GDPval-AA Elo 有经济价值的真实工作任务 1554 1395 1482 1535 1619 1674 1314
MCPAtlas Public Pass@1 MCP 工具调用泛化能力 73.6 69.0 66.6 71.8 73.8 67.2 69.2
Toolathlon Pass@1 长流程多工具连续调用 51.8 47.8 50.0 40.7 47.2 54.6 48.8

核心结论

V4-Pro-Max 的优势领域(开源最强 / 全场最强)

  • LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
  • Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
  • Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
  • Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
  • SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)

各家模型各自领先的领域

模型 强项
Gemini 3.1 Pro 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4)
GPT-5.4 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674)
Claude Opus 4.6 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5)
DeepSeek V4-Pro 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识
Kimi K2.6 SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出
网友解答:
--【壹】--:

加粗为该行最高分。

类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High
知识与推理 MMLU-Pro EM 57+学科通用知识广度 87.5 86.2 87.1 86.0 89.1 87.5 91.0
SimpleQA-Verified Pass@1 事实性问答,检测幻觉 57.9 34.1 36.9 38.1 46.2 45.3 75.6
Chinese-SimpleQA Pass@1 中文事实性知识准确度 84.4 78.9 75.9 75.0 76.2 76.8 85.9
GPQA Diamond Pass@1 博士级专家推理(物化生) 90.1 88.1 90.5 86.2 91.3 93.0 94.3
HLE Pass@1 “人类最后的考试”,极难综合题 37.7 34.8 36.4 34.7 40.0 39.8 44.4
LiveCodeBench Pass@1 实时更新的编程题(防记忆) 93.5 91.6 89.6 88.8 91.7
Codeforces Rating 在线编程竞赛 Elo 排名 3206 3052 3168 3052
HMMT 2026 Feb Pass@1 哈佛-MIT 数学竞赛真题 95.2 94.8 92.7 89.4 96.2 97.7 94.7
IMOAnswerBench Pass@1 国际数学奥赛求解能力 89.8 88.4 86.0 83.8 75.3 91.4 81.0
Apex Pass@1 极高难度综合推理 38.3 33.0 24.0 11.5 34.5 54.1 60.9
Apex Shortlist Pass@1 Apex 精选难题子集 90.2 85.7 75.5 72.4 85.9 78.1 89.1
长上下文 MRCR 1M MMR 百万 token 多轮信息检索 83.5 78.7 92.9 76.3
CorpusQA 1M ACC 百万 token 跨文档问答 62.0 60.5 71.7 53.8
智能体 Terminal Bench 2.0 Acc 真实终端多步命令行操作 67.9 56.9 66.7 63.5 65.4 75.1 68.5
SWE Verified Resolved 真实 GitHub issue 修复 80.6 79.0 80.2 80.8 80.6
SWE Pro Resolved SWE-bench 加难版 55.4 52.6 58.6 58.4 57.3 57.7 54.2
SWE Multilingual Resolved 多语言真实工程修复 76.2 73.3 76.7 73.3 77.5
BrowseComp Pass@1 网页浏览与信息检索 83.4 73.2 83.2 79.3 83.7 82.7 85.9
HLE w/tools Pass@1 借助工具解极难题 48.2 45.1 54.0 50.4 53.1 52.0 51.6
GDPval-AA Elo 有经济价值的真实工作任务 1554 1395 1482 1535 1619 1674 1314
MCPAtlas Public Pass@1 MCP 工具调用泛化能力 73.6 69.0 66.6 71.8 73.8 67.2 69.2
Toolathlon Pass@1 长流程多工具连续调用 51.8 47.8 50.0 40.7 47.2 54.6 48.8

核心结论

V4-Pro-Max 的优势领域(开源最强 / 全场最强)

  • LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
  • Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
  • Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
  • Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
  • SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)

各家模型各自领先的领域

模型 强项
Gemini 3.1 Pro 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4)
GPT-5.4 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674)
Claude Opus 4.6 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5)
DeepSeek V4-Pro 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识
Kimi K2.6 SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出
标签:DeepSeek
问题描述:

加粗为该行最高分。

类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High
知识与推理 MMLU-Pro EM 57+学科通用知识广度 87.5 86.2 87.1 86.0 89.1 87.5 91.0
SimpleQA-Verified Pass@1 事实性问答,检测幻觉 57.9 34.1 36.9 38.1 46.2 45.3 75.6
Chinese-SimpleQA Pass@1 中文事实性知识准确度 84.4 78.9 75.9 75.0 76.2 76.8 85.9
GPQA Diamond Pass@1 博士级专家推理(物化生) 90.1 88.1 90.5 86.2 91.3 93.0 94.3
HLE Pass@1 “人类最后的考试”,极难综合题 37.7 34.8 36.4 34.7 40.0 39.8 44.4
LiveCodeBench Pass@1 实时更新的编程题(防记忆) 93.5 91.6 89.6 88.8 91.7
Codeforces Rating 在线编程竞赛 Elo 排名 3206 3052 3168 3052
HMMT 2026 Feb Pass@1 哈佛-MIT 数学竞赛真题 95.2 94.8 92.7 89.4 96.2 97.7 94.7
IMOAnswerBench Pass@1 国际数学奥赛求解能力 89.8 88.4 86.0 83.8 75.3 91.4 81.0
Apex Pass@1 极高难度综合推理 38.3 33.0 24.0 11.5 34.5 54.1 60.9
Apex Shortlist Pass@1 Apex 精选难题子集 90.2 85.7 75.5 72.4 85.9 78.1 89.1
长上下文 MRCR 1M MMR 百万 token 多轮信息检索 83.5 78.7 92.9 76.3
CorpusQA 1M ACC 百万 token 跨文档问答 62.0 60.5 71.7 53.8
智能体 Terminal Bench 2.0 Acc 真实终端多步命令行操作 67.9 56.9 66.7 63.5 65.4 75.1 68.5
SWE Verified Resolved 真实 GitHub issue 修复 80.6 79.0 80.2 80.8 80.6
SWE Pro Resolved SWE-bench 加难版 55.4 52.6 58.6 58.4 57.3 57.7 54.2
SWE Multilingual Resolved 多语言真实工程修复 76.2 73.3 76.7 73.3 77.5
BrowseComp Pass@1 网页浏览与信息检索 83.4 73.2 83.2 79.3 83.7 82.7 85.9
HLE w/tools Pass@1 借助工具解极难题 48.2 45.1 54.0 50.4 53.1 52.0 51.6
GDPval-AA Elo 有经济价值的真实工作任务 1554 1395 1482 1535 1619 1674 1314
MCPAtlas Public Pass@1 MCP 工具调用泛化能力 73.6 69.0 66.6 71.8 73.8 67.2 69.2
Toolathlon Pass@1 长流程多工具连续调用 51.8 47.8 50.0 40.7 47.2 54.6 48.8

核心结论

V4-Pro-Max 的优势领域(开源最强 / 全场最强)

  • LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
  • Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
  • Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
  • Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
  • SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)

各家模型各自领先的领域

模型 强项
Gemini 3.1 Pro 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4)
GPT-5.4 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674)
Claude Opus 4.6 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5)
DeepSeek V4-Pro 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识
Kimi K2.6 SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出
网友解答:
--【壹】--:

加粗为该行最高分。

类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High
知识与推理 MMLU-Pro EM 57+学科通用知识广度 87.5 86.2 87.1 86.0 89.1 87.5 91.0
SimpleQA-Verified Pass@1 事实性问答,检测幻觉 57.9 34.1 36.9 38.1 46.2 45.3 75.6
Chinese-SimpleQA Pass@1 中文事实性知识准确度 84.4 78.9 75.9 75.0 76.2 76.8 85.9
GPQA Diamond Pass@1 博士级专家推理(物化生) 90.1 88.1 90.5 86.2 91.3 93.0 94.3
HLE Pass@1 “人类最后的考试”,极难综合题 37.7 34.8 36.4 34.7 40.0 39.8 44.4
LiveCodeBench Pass@1 实时更新的编程题(防记忆) 93.5 91.6 89.6 88.8 91.7
Codeforces Rating 在线编程竞赛 Elo 排名 3206 3052 3168 3052
HMMT 2026 Feb Pass@1 哈佛-MIT 数学竞赛真题 95.2 94.8 92.7 89.4 96.2 97.7 94.7
IMOAnswerBench Pass@1 国际数学奥赛求解能力 89.8 88.4 86.0 83.8 75.3 91.4 81.0
Apex Pass@1 极高难度综合推理 38.3 33.0 24.0 11.5 34.5 54.1 60.9
Apex Shortlist Pass@1 Apex 精选难题子集 90.2 85.7 75.5 72.4 85.9 78.1 89.1
长上下文 MRCR 1M MMR 百万 token 多轮信息检索 83.5 78.7 92.9 76.3
CorpusQA 1M ACC 百万 token 跨文档问答 62.0 60.5 71.7 53.8
智能体 Terminal Bench 2.0 Acc 真实终端多步命令行操作 67.9 56.9 66.7 63.5 65.4 75.1 68.5
SWE Verified Resolved 真实 GitHub issue 修复 80.6 79.0 80.2 80.8 80.6
SWE Pro Resolved SWE-bench 加难版 55.4 52.6 58.6 58.4 57.3 57.7 54.2
SWE Multilingual Resolved 多语言真实工程修复 76.2 73.3 76.7 73.3 77.5
BrowseComp Pass@1 网页浏览与信息检索 83.4 73.2 83.2 79.3 83.7 82.7 85.9
HLE w/tools Pass@1 借助工具解极难题 48.2 45.1 54.0 50.4 53.1 52.0 51.6
GDPval-AA Elo 有经济价值的真实工作任务 1554 1395 1482 1535 1619 1674 1314
MCPAtlas Public Pass@1 MCP 工具调用泛化能力 73.6 69.0 66.6 71.8 73.8 67.2 69.2
Toolathlon Pass@1 长流程多工具连续调用 51.8 47.8 50.0 40.7 47.2 54.6 48.8

核心结论

V4-Pro-Max 的优势领域(开源最强 / 全场最强)

  • LiveCodeBench 93.5% — 全场最高,超越所有闭源模型
  • Codeforces 3206 — 人类竞赛排名第 23,开源模型首次匹配闭源前沿
  • Apex Shortlist 90.2% — 全场最高,精选难题推理能力突出
  • Chinese-SimpleQA 84.4% — 中文知识仅次于 Gemini,远超其他模型
  • SimpleQA-Verified 57.9% — 开源模型中大幅领先(+20 分)

各家模型各自领先的领域

模型 强项
Gemini 3.1 Pro 通用知识全面领先(MMLU-Pro 91.0、SimpleQA 75.6、GPQA 94.3、HLE 44.4)
GPT-5.4 数学竞赛(HMMT 97.7、IMO 91.4)、终端操作(75.1)、商业任务(GDPval 1674)
Claude Opus 4.6 长上下文检索(MRCR 92.9)、软件工程(SWE Verified 80.8、SWE Multilingual 77.5)
DeepSeek V4-Pro 编程竞赛(LiveCodeBench 93.5、Codeforces 3206)、工具调用(MCPAtlas 73.6)、中文知识
Kimi K2.6 SWE Pro 58.6、HLE w/tools 54.0,在部分智能体任务上表现突出
标签:DeepSeek