关于我对 gpt-image-2 的推测

2026-04-29 08:232阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

由于从 25 年底开始研究 AI 漫剧，我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型，以及结合 ComfyUI 搭建并使用了一些媒体处理工作流，在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点：
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件：
image1210×1296 181 KB

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent，不是一个模型。
同理，豆包 seed 强大的多模态应该也是 Agent（这个应该用过 API 的能感觉出来，多模态任务中的某些返回跟硬编码一样准确）
但是我也发现 gpt-image-2 生成的文字，特别是生僻字，会出现和 nano banana 一样的幻觉，我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答：

--【壹】--：

我不管它原理是什么样的，但是我发现这个思路是非常让人眼前一亮的，卧槽，这不无敌了？

GPT本身就内置了沙盒可以跑任何代码，那么它在内部也可以调用iamge 2模型，它自己在沙盒里跑PSD拼接，跑图片出来，然后拼成一个PSD，这个思路真的很厉害了，我的天！

让我大脑瞬间通透的！

更新

跑了11分钟思考后我发现，它没调用image 2模型，是直接用代码画的…

但是这个思路确实可以做一个Agent

--【贰】--：

但gpt-image-2的文字还是有瑕疵，尤其是1K生图的情况下

--【叁】--：

不太可能的，如果真的是先生成psd，为什么不直接给你psd文件，合成图片是画蛇添足啊。这个模型架构估计很复杂，既有神奇的指令遵循能力，还有超绝审美和文字准确度

--【肆】--：

不这么认为，其实中文还是有不低的概率出现AI生图典型的乱码文字的，有时候甚至感觉感觉乱码概率高于nano Banana pro。

之前用nano banana pro，网页版直接生图，个别文字可能会出现乱码，但是点击下载按钮，你看下载后的高清大图，你会发现乱码的文字神奇地变成正确的文字了。
所以虽然点击下载时会提示“正在下载完整尺寸的图片…”(等很久)，但其实应该是后台用更多的步数或其他参数重新生成了这张图片。

gpt-image-2可能也是类似，在image2正式推出的前后，佬友们应该明显感觉到有过一段降智的现象，图片内容一看就知道肯定是image2生成的，但文字乱码出现几率就是提高了很多。结合之前那个竞技场榜单上，排在第一的gpt-image-2，标注的是“gpt-image-2(medium)”，推测是和nano Banana一样，“思考等级”/分辨率给的不同，会影响文字的准确率。

所以我不认为文字是覆盖的文字图层，应该单纯的就是模型生成文字的效果好。
如果是文字图层，那这绝对是十分容易出现破绽的地方，但在佬友们大量生成的各种海报里，多么复杂的文字表现形式都出现过，文字准确率的表现却是十分均匀的。

--【伍】--：

如果是这样，那“文字图层说”就更站不住脚了呀。
而且各种离谱的字体是怎么实现的呢？如果是先生成文字作为纯文字参考图，这种强参考带来的引导大概是无法实现复杂的字体表现形式的，现在image2出一张复杂的多字宣传图，可能出种非常大量的不同字体，从原理上讲，这除了生图模型原生生图能力之外，什么东西能做到这么准确的多字体表现，同时相应位置所在的字体还十分恰当的呀。。

--【陆】--：

生成 PSD 文件的功能应该跟 image2 是同一个吧，image 2 去生成应该也是拆成单张在合成PSD吧

--【柒】--：

感觉更有可能，指引下字形什么的。不然纯叠加的话，字体应该很有限的

--【捌】--：

如果是这样的话文字清晰度就不应该随quality发生变化，可能最多文字不够贴合背景，风格化不够好看。

但是实际上low level是会直接出乱码的

--【玖】--：

不太可能，我让gpt帮我翻译、嵌字漫画，漫画里的艺术字也能保持原本的风格，只是弄一层文字层应该只会出现默认字体吧。

--【拾】--：

这个我个人觉得还是只是 UI 上的一点小巧思，没法说明真的有 Agent

--【拾壹】--：

我也思考过这个现象，可能的一个解释是先生成了要使用的文字作为纯文字参考图，像字典一样，然后再用这个参考图生成海报？这样确实可以约束文字生成的稳定性。

--【拾贰】--：

这直接就是GPT做的吧？反映的是GPT的文件处理能力。网页版有各种文件处理工具，会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。

--【拾叁】--：

他那个psd说实话

也只是psd文件

基本没啥用

不过

你这个猜测有一定道理

豆包的5.0到现在都还是lite版

不知道字节啥时候抬出来

--【拾肆】--：

web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的，但是说不定真的是一个agent在做？

之前看到这几句话没啥感觉，现在感觉说不定有点东西哦

--【拾伍】--：

你这样的任务，在image-2出来之前应该也是能做到的，它用不到Image-2图像模型的生图能力呀。

--【拾陆】--：

找个图片测试了一下

a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB

2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB

--【拾柒】--：

在生成跟代码混搭的讲解图片的时候经常性出现部分乱码（也不能说完全的乱，能看出大概）

deepcake:

但gpt-image-2的文字还是有瑕疵，尤其是1K生图的情况下

--【拾捌】--：

这个过程中似乎都没调用gpt image 2

--【拾玖】--：

我测试了一下，我发现出来的图，并不是用image 2生成的素材，好乱！

跑了11分钟，看到了结果

标签：OpenAI 人工智能豆包

问题描述：

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答：

--【壹】--：

我不管它原理是什么样的，但是我发现这个思路是非常让人眼前一亮的，卧槽，这不无敌了？

让我大脑瞬间通透的！

更新

跑了11分钟思考后我发现，它没调用image 2模型，是直接用代码画的…

但是这个思路确实可以做一个Agent

--【贰】--：

但gpt-image-2的文字还是有瑕疵，尤其是1K生图的情况下

--【叁】--：

--【肆】--：

不这么认为，其实中文还是有不低的概率出现AI生图典型的乱码文字的，有时候甚至感觉感觉乱码概率高于nano Banana pro。

--【伍】--：

--【陆】--：

生成 PSD 文件的功能应该跟 image2 是同一个吧，image 2 去生成应该也是拆成单张在合成PSD吧

--【柒】--：

感觉更有可能，指引下字形什么的。不然纯叠加的话，字体应该很有限的

--【捌】--：

如果是这样的话文字清晰度就不应该随quality发生变化，可能最多文字不够贴合背景，风格化不够好看。

但是实际上low level是会直接出乱码的

--【玖】--：

不太可能，我让gpt帮我翻译、嵌字漫画，漫画里的艺术字也能保持原本的风格，只是弄一层文字层应该只会出现默认字体吧。

--【拾】--：

这个我个人觉得还是只是 UI 上的一点小巧思，没法说明真的有 Agent

--【拾壹】--：

--【拾贰】--：

这直接就是GPT做的吧？反映的是GPT的文件处理能力。网页版有各种文件处理工具，会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。

--【拾叁】--：

他那个psd说实话

也只是psd文件

基本没啥用

不过

你这个猜测有一定道理

豆包的5.0到现在都还是lite版

不知道字节啥时候抬出来

--【拾肆】--：

web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的，但是说不定真的是一个agent在做？

之前看到这几句话没啥感觉，现在感觉说不定有点东西哦

--【拾伍】--：

你这样的任务，在image-2出来之前应该也是能做到的，它用不到Image-2图像模型的生图能力呀。

--【拾陆】--：

找个图片测试了一下

a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB

2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB

--【拾柒】--：

在生成跟代码混搭的讲解图片的时候经常性出现部分乱码（也不能说完全的乱，能看出大概）

deepcake:

但gpt-image-2的文字还是有瑕疵，尤其是1K生图的情况下

--【拾捌】--：

这个过程中似乎都没调用gpt image 2

--【拾玖】--：

我测试了一下，我发现出来的图，并不是用image 2生成的素材，好乱！

跑了11分钟，看到了结果

标签：OpenAI 人工智能豆包

让我大脑瞬间通透的！

更新

相关推荐

让我大脑瞬间通透的！

更新

相关推荐