GPT 5.5发布，一雪前耻还是再度翻车？

2026-04-29 09:542阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

叠甲：本帖子不含xxxxxx和某企业关联的新闻，请放心阅读，如有错误请理性讨论并指出，如果你不想看这个帖子点击右上角关掉浏览器（macOS为左上角），请不要恶意举报

ChatGPT 5.5发布

OpenAI在4月23日发布了ChatGPT 5.5模型，Terminal Bench 2.0和CyberGym表现出色，前端质量也有很大改善
image2278×1056 167 KB
为啥没有SWE Bench Pro？报喜不报忧呗。
如下是GPT 5.5 vs GPT 5.4 vs Claude Opus 4.6 vs GLM 5.1 VS Kimi 2.6的榜单
Opus 4.7暂不列出

编码类

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
SWE-Bench Pro	58.6	57.7	53.4–57.3	58.4	58.6	GPT-5.5 / Kimi K2.6 并列
Terminal-Bench 2.0	82.7	75.1 / 65.4	65.4	63.5	66.7	GPT-5.5
Expert-SWE Internal	73.1	68.5	—	—	—	GPT-5.5
SWE-Bench Multilingual	—	—	77.8	—	76.7	Claude Opus 4.6
SWE-Bench Verified	—	—	80.8	—	80.2	Claude Opus 4.6
SciCode	—	56.6	51.9	—	52.2	GPT-5.4
OJBench Python	—	—	60.3	—	60.6	Kimi K2.6
LiveCodeBench v6	—	—	88.8	—	89.6	Kimi K2.6

Agent工作

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
HLE-Full w/ tools	52.2	52.1	53.0 / 53.1	52.3	54.0	Kimi K2.6
BrowseComp	84.4	82.7	83.7 / 84.0	68.0 / 79.3 w context	83.2	GPT-5.5
BrowseComp Agent Swarm	—	—	—	—	86.3	Kimi K2.6
DeepSearchQA F1	—	78.6	91.3	—	92.5	Kimi K2.6
DeepSearchQA Accuracy	—	63.7	80.6	—	83.0	Kimi K2.6
Toolathlon / Tool-Decathlon	55.6	54.6	47.2	40.7	50.0	GPT-5.5
MCP Atlas / MCPMark	75.3	70.6 / 62.5	56.7 / —	71.8	55.9	GPT-5.5 on OpenAI MCP Atlas
OSWorld-Verified	78.7	75.0	72.7	—	73.1	GPT-5.5
Tau2-bench Telecom	98.0	92.8	—	—	—	GPT-5.5

从上面榜单可以看出，GPT 5.5也不是可以到平替Opus的级别吧。
实测：复刻Gmail页面，没有使用提示词工程，效果很可以，相比于上一代GPT 5.4有大幅提升（前端）
image3104×1836 477 KB

网友解答：

--【壹】--：

叠甲：本帖子不含xxxxxx和某企业关联的新闻，请放心阅读，如有错误请理性讨论并指出，如果你不想看这个帖子点击右上角关掉浏览器（macOS为左上角），请不要恶意举报

ChatGPT 5.5发布

OpenAI在4月23日发布了ChatGPT 5.5模型，Terminal Bench 2.0和CyberGym表现出色，前端质量也有很大改善
image2278×1056 167 KB
为啥没有SWE Bench Pro？报喜不报忧呗。
如下是GPT 5.5 vs GPT 5.4 vs Claude Opus 4.6 vs GLM 5.1 VS Kimi 2.6的榜单
Opus 4.7暂不列出

编码类

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
SWE-Bench Pro	58.6	57.7	53.4–57.3	58.4	58.6	GPT-5.5 / Kimi K2.6 并列
Terminal-Bench 2.0	82.7	75.1 / 65.4	65.4	63.5	66.7	GPT-5.5
Expert-SWE Internal	73.1	68.5	—	—	—	GPT-5.5
SWE-Bench Multilingual	—	—	77.8	—	76.7	Claude Opus 4.6
SWE-Bench Verified	—	—	80.8	—	80.2	Claude Opus 4.6
SciCode	—	56.6	51.9	—	52.2	GPT-5.4
OJBench Python	—	—	60.3	—	60.6	Kimi K2.6
LiveCodeBench v6	—	—	88.8	—	89.6	Kimi K2.6

Agent工作

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
HLE-Full w/ tools	52.2	52.1	53.0 / 53.1	52.3	54.0	Kimi K2.6
BrowseComp	84.4	82.7	83.7 / 84.0	68.0 / 79.3 w context	83.2	GPT-5.5
BrowseComp Agent Swarm	—	—	—	—	86.3	Kimi K2.6
DeepSearchQA F1	—	78.6	91.3	—	92.5	Kimi K2.6
DeepSearchQA Accuracy	—	63.7	80.6	—	83.0	Kimi K2.6
Toolathlon / Tool-Decathlon	55.6	54.6	47.2	40.7	50.0	GPT-5.5
MCP Atlas / MCPMark	75.3	70.6 / 62.5	56.7 / —	71.8	55.9	GPT-5.5 on OpenAI MCP Atlas
OSWorld-Verified	78.7	75.0	72.7	—	73.1	GPT-5.5
Tau2-bench Telecom	98.0	92.8	—	—	—	GPT-5.5

从上面榜单可以看出，GPT 5.5也不是可以到平替Opus的级别吧。
实测：复刻Gmail页面，没有使用提示词工程，效果很可以，相比于上一代GPT 5.4有大幅提升（前端）
image3104×1836 477 KB

标签：人工智能纯水

问题描述：

叠甲：本帖子不含xxxxxx和某企业关联的新闻，请放心阅读，如有错误请理性讨论并指出，如果你不想看这个帖子点击右上角关掉浏览器（macOS为左上角），请不要恶意举报

ChatGPT 5.5发布

OpenAI在4月23日发布了ChatGPT 5.5模型，Terminal Bench 2.0和CyberGym表现出色，前端质量也有很大改善
image2278×1056 167 KB
为啥没有SWE Bench Pro？报喜不报忧呗。
如下是GPT 5.5 vs GPT 5.4 vs Claude Opus 4.6 vs GLM 5.1 VS Kimi 2.6的榜单
Opus 4.7暂不列出

编码类

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
SWE-Bench Pro	58.6	57.7	53.4–57.3	58.4	58.6	GPT-5.5 / Kimi K2.6 并列
Terminal-Bench 2.0	82.7	75.1 / 65.4	65.4	63.5	66.7	GPT-5.5
Expert-SWE Internal	73.1	68.5	—	—	—	GPT-5.5
SWE-Bench Multilingual	—	—	77.8	—	76.7	Claude Opus 4.6
SWE-Bench Verified	—	—	80.8	—	80.2	Claude Opus 4.6
SciCode	—	56.6	51.9	—	52.2	GPT-5.4
OJBench Python	—	—	60.3	—	60.6	Kimi K2.6
LiveCodeBench v6	—	—	88.8	—	89.6	Kimi K2.6

Agent工作

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
HLE-Full w/ tools	52.2	52.1	53.0 / 53.1	52.3	54.0	Kimi K2.6
BrowseComp	84.4	82.7	83.7 / 84.0	68.0 / 79.3 w context	83.2	GPT-5.5
BrowseComp Agent Swarm	—	—	—	—	86.3	Kimi K2.6
DeepSearchQA F1	—	78.6	91.3	—	92.5	Kimi K2.6
DeepSearchQA Accuracy	—	63.7	80.6	—	83.0	Kimi K2.6
Toolathlon / Tool-Decathlon	55.6	54.6	47.2	40.7	50.0	GPT-5.5
MCP Atlas / MCPMark	75.3	70.6 / 62.5	56.7 / —	71.8	55.9	GPT-5.5 on OpenAI MCP Atlas
OSWorld-Verified	78.7	75.0	72.7	—	73.1	GPT-5.5
Tau2-bench Telecom	98.0	92.8	—	—	—	GPT-5.5

从上面榜单可以看出，GPT 5.5也不是可以到平替Opus的级别吧。
实测：复刻Gmail页面，没有使用提示词工程，效果很可以，相比于上一代GPT 5.4有大幅提升（前端）
image3104×1836 477 KB

网友解答：

--【壹】--：

叠甲：本帖子不含xxxxxx和某企业关联的新闻，请放心阅读，如有错误请理性讨论并指出，如果你不想看这个帖子点击右上角关掉浏览器（macOS为左上角），请不要恶意举报

ChatGPT 5.5发布

OpenAI在4月23日发布了ChatGPT 5.5模型，Terminal Bench 2.0和CyberGym表现出色，前端质量也有很大改善
image2278×1056 167 KB
为啥没有SWE Bench Pro？报喜不报忧呗。
如下是GPT 5.5 vs GPT 5.4 vs Claude Opus 4.6 vs GLM 5.1 VS Kimi 2.6的榜单
Opus 4.7暂不列出

编码类

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
SWE-Bench Pro	58.6	57.7	53.4–57.3	58.4	58.6	GPT-5.5 / Kimi K2.6 并列
Terminal-Bench 2.0	82.7	75.1 / 65.4	65.4	63.5	66.7	GPT-5.5
Expert-SWE Internal	73.1	68.5	—	—	—	GPT-5.5
SWE-Bench Multilingual	—	—	77.8	—	76.7	Claude Opus 4.6
SWE-Bench Verified	—	—	80.8	—	80.2	Claude Opus 4.6
SciCode	—	56.6	51.9	—	52.2	GPT-5.4
OJBench Python	—	—	60.3	—	60.6	Kimi K2.6
LiveCodeBench v6	—	—	88.8	—	89.6	Kimi K2.6

Agent工作

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.6	GLM-5.1	Kimi K2.6	领先
HLE-Full w/ tools	52.2	52.1	53.0 / 53.1	52.3	54.0	Kimi K2.6
BrowseComp	84.4	82.7	83.7 / 84.0	68.0 / 79.3 w context	83.2	GPT-5.5
BrowseComp Agent Swarm	—	—	—	—	86.3	Kimi K2.6
DeepSearchQA F1	—	78.6	91.3	—	92.5	Kimi K2.6
DeepSearchQA Accuracy	—	63.7	80.6	—	83.0	Kimi K2.6
Toolathlon / Tool-Decathlon	55.6	54.6	47.2	40.7	50.0	GPT-5.5
MCP Atlas / MCPMark	75.3	70.6 / 62.5	56.7 / —	71.8	55.9	GPT-5.5 on OpenAI MCP Atlas
OSWorld-Verified	78.7	75.0	72.7	—	73.1	GPT-5.5
Tau2-bench Telecom	98.0	92.8	—	—	—	GPT-5.5

从上面榜单可以看出，GPT 5.5也不是可以到平替Opus的级别吧。
实测：复刻Gmail页面，没有使用提示词工程，效果很可以，相比于上一代GPT 5.4有大幅提升（前端）
image3104×1836 477 KB

标签：人工智能纯水