关于我对 gpt-image-2 的推测

2026-04-29 08:232阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答:
--【壹】--:

我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?

GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!

让我大脑瞬间通透的!

更新

跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…

但是这个思路确实可以做一个Agent


--【贰】--:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【叁】--:

不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。这个模型架构估计很复杂,既有神奇的指令遵循能力,还有超绝审美和文字准确度


--【肆】--:


不这么认为,其实中文还是有不低的概率出现AI生图典型的乱码文字的,有时候甚至感觉感觉乱码概率高于nano Banana pro。

之前用nano banana pro,网页版直接生图,个别文字可能会出现乱码,但是点击下载按钮,你看下载后的高清大图,你会发现乱码的文字神奇地变成正确的文字了。
所以虽然点击下载时会提示“正在下载完整尺寸的图片…”(等很久),但其实应该是后台用更多的步数或其他参数重新生成了这张图片。

gpt-image-2可能也是类似,在image2正式推出的前后,佬友们应该明显感觉到有过一段降智的现象,图片内容一看就知道肯定是image2生成的,但文字乱码出现几率就是提高了很多。结合之前那个竞技场榜单上,排在第一的gpt-image-2,标注的是“gpt-image-2(medium)”,推测是和nano Banana一样,“思考等级”/分辨率给的不同,会影响文字的准确率。

所以我不认为文字是覆盖的文字图层,应该单纯的就是模型生成文字的效果好。
如果是文字图层,那这绝对是十分容易出现破绽的地方,但在佬友们大量生成的各种海报里,多么复杂的文字表现形式都出现过,文字准确率的表现却是十分均匀的。


--【伍】--:

如果是这样,那“文字图层说”就更站不住脚了呀。
而且各种离谱的字体是怎么实现的呢?如果是先生成文字作为纯文字参考图,这种强参考带来的引导大概是无法实现复杂的字体表现形式的,现在image2出一张复杂的多字宣传图,可能出种非常大量的不同字体,从原理上讲,这除了生图模型原生生图能力之外,什么东西能做到这么准确的多字体表现,同时相应位置所在的字体还十分恰当的呀。。


--【陆】--:

生成 PSD 文件的功能应该跟 image2 是同一个吧,image 2 去生成应该也是拆成单张在合成PSD吧


--【柒】--:

感觉更有可能,指引下字形什么的。不然纯叠加的话,字体应该很有限的


--【捌】--:

如果是这样的话文字清晰度就不应该随quality发生变化,可能最多文字不够贴合背景,风格化不够好看。

但是实际上low level是会直接出乱码的


--【玖】--:

不太可能,我让gpt帮我翻译、嵌字漫画,漫画里的艺术字也能保持原本的风格,只是弄一层文字层应该只会出现默认字体吧。


--【拾】--:

这个我个人觉得还是只是 UI 上的一点小巧思,没法说明真的有 Agent


--【拾壹】--:

我也思考过这个现象,可能的一个解释是先生成了要使用的文字作为纯文字参考图,像字典一样,然后再用这个参考图生成海报?这样确实可以约束文字生成的稳定性。


--【拾贰】--:

这直接就是GPT做的吧?反映的是GPT的文件处理能力。网页版有各种文件处理工具,会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。


--【拾叁】--:

他那个psd说实话

也只是psd文件

基本没啥用

不过

你这个猜测有一定道理

豆包的5.0到现在都还是lite版

不知道字节啥时候抬出来


--【拾肆】--:

web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的,但是说不定真的是一个agent在做?

之前看到这几句话没啥感觉,现在感觉说不定有点东西哦


--【拾伍】--:

你这样的任务,在image-2出来之前应该也是能做到的,它用不到Image-2图像模型的生图能力呀。


--【拾陆】--:

找个图片测试了一下

a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB

2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB


--【拾柒】--:

在生成跟代码混搭的讲解图片的时候经常性出现部分乱码(也不能说完全的乱,能看出大概)

deepcake:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【拾捌】--:

这个过程中似乎都没调用gpt image 2


--【拾玖】--:

我测试了一下,我发现出来的图,并不是用image 2生成的素材,好乱!

跑了11分钟,看到了结果

问题描述:

由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答:
--【壹】--:

我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?

GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!

让我大脑瞬间通透的!

更新

跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…

但是这个思路确实可以做一个Agent


--【贰】--:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【叁】--:

不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。这个模型架构估计很复杂,既有神奇的指令遵循能力,还有超绝审美和文字准确度


--【肆】--:


不这么认为,其实中文还是有不低的概率出现AI生图典型的乱码文字的,有时候甚至感觉感觉乱码概率高于nano Banana pro。

之前用nano banana pro,网页版直接生图,个别文字可能会出现乱码,但是点击下载按钮,你看下载后的高清大图,你会发现乱码的文字神奇地变成正确的文字了。
所以虽然点击下载时会提示“正在下载完整尺寸的图片…”(等很久),但其实应该是后台用更多的步数或其他参数重新生成了这张图片。

gpt-image-2可能也是类似,在image2正式推出的前后,佬友们应该明显感觉到有过一段降智的现象,图片内容一看就知道肯定是image2生成的,但文字乱码出现几率就是提高了很多。结合之前那个竞技场榜单上,排在第一的gpt-image-2,标注的是“gpt-image-2(medium)”,推测是和nano Banana一样,“思考等级”/分辨率给的不同,会影响文字的准确率。

所以我不认为文字是覆盖的文字图层,应该单纯的就是模型生成文字的效果好。
如果是文字图层,那这绝对是十分容易出现破绽的地方,但在佬友们大量生成的各种海报里,多么复杂的文字表现形式都出现过,文字准确率的表现却是十分均匀的。


--【伍】--:

如果是这样,那“文字图层说”就更站不住脚了呀。
而且各种离谱的字体是怎么实现的呢?如果是先生成文字作为纯文字参考图,这种强参考带来的引导大概是无法实现复杂的字体表现形式的,现在image2出一张复杂的多字宣传图,可能出种非常大量的不同字体,从原理上讲,这除了生图模型原生生图能力之外,什么东西能做到这么准确的多字体表现,同时相应位置所在的字体还十分恰当的呀。。


--【陆】--:

生成 PSD 文件的功能应该跟 image2 是同一个吧,image 2 去生成应该也是拆成单张在合成PSD吧


--【柒】--:

感觉更有可能,指引下字形什么的。不然纯叠加的话,字体应该很有限的


--【捌】--:

如果是这样的话文字清晰度就不应该随quality发生变化,可能最多文字不够贴合背景,风格化不够好看。

但是实际上low level是会直接出乱码的


--【玖】--:

不太可能,我让gpt帮我翻译、嵌字漫画,漫画里的艺术字也能保持原本的风格,只是弄一层文字层应该只会出现默认字体吧。


--【拾】--:

这个我个人觉得还是只是 UI 上的一点小巧思,没法说明真的有 Agent


--【拾壹】--:

我也思考过这个现象,可能的一个解释是先生成了要使用的文字作为纯文字参考图,像字典一样,然后再用这个参考图生成海报?这样确实可以约束文字生成的稳定性。


--【拾贰】--:

这直接就是GPT做的吧?反映的是GPT的文件处理能力。网页版有各种文件处理工具,会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。


--【拾叁】--:

他那个psd说实话

也只是psd文件

基本没啥用

不过

你这个猜测有一定道理

豆包的5.0到现在都还是lite版

不知道字节啥时候抬出来


--【拾肆】--:

web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的,但是说不定真的是一个agent在做?

之前看到这几句话没啥感觉,现在感觉说不定有点东西哦


--【拾伍】--:

你这样的任务,在image-2出来之前应该也是能做到的,它用不到Image-2图像模型的生图能力呀。


--【拾陆】--:

找个图片测试了一下

a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB

2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB


--【拾柒】--:

在生成跟代码混搭的讲解图片的时候经常性出现部分乱码(也不能说完全的乱,能看出大概)

deepcake:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【拾捌】--:

这个过程中似乎都没调用gpt image 2


--【拾玖】--:

我测试了一下,我发现出来的图,并不是用image 2生成的素材,好乱!

跑了11分钟,看到了结果