关于我对 gpt-image-2 的推测

2026-04-29 08:231阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答:
--【壹】--:

我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?

GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!

让我大脑瞬间通透的!

更新

跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…

但是这个思路确实可以做一个Agent


--【贰】--:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【叁】--:

不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。

阅读全文
问题描述:

由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB

我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。

还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。

有没有佬们有更深入的发现

网友解答:
--【壹】--:

我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?

GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!

让我大脑瞬间通透的!

更新

跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…

但是这个思路确实可以做一个Agent


--【贰】--:

但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下


--【叁】--:

不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。

阅读全文