关于我对 gpt-image-2 的推测
- 内容介绍
- 文章标签
- 相关推荐
由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB
我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。
还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。
有没有佬们有更深入的发现
网友解答:--【壹】--:
我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?
GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!
让我大脑瞬间通透的!
更新
跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…
但是这个思路确实可以做一个Agent
--【贰】--:
但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下
--【叁】--:
不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。这个模型架构估计很复杂,既有神奇的指令遵循能力,还有超绝审美和文字准确度
--【肆】--:
不这么认为,其实中文还是有不低的概率出现AI生图典型的乱码文字的,有时候甚至感觉感觉乱码概率高于nano Banana pro。
之前用nano banana pro,网页版直接生图,个别文字可能会出现乱码,但是点击下载按钮,你看下载后的高清大图,你会发现乱码的文字神奇地变成正确的文字了。
所以虽然点击下载时会提示“正在下载完整尺寸的图片…”(等很久),但其实应该是后台用更多的步数或其他参数重新生成了这张图片。
gpt-image-2可能也是类似,在image2正式推出的前后,佬友们应该明显感觉到有过一段降智的现象,图片内容一看就知道肯定是image2生成的,但文字乱码出现几率就是提高了很多。结合之前那个竞技场榜单上,排在第一的gpt-image-2,标注的是“gpt-image-2(medium)”,推测是和nano Banana一样,“思考等级”/分辨率给的不同,会影响文字的准确率。
所以我不认为文字是覆盖的文字图层,应该单纯的就是模型生成文字的效果好。
如果是文字图层,那这绝对是十分容易出现破绽的地方,但在佬友们大量生成的各种海报里,多么复杂的文字表现形式都出现过,文字准确率的表现却是十分均匀的。
--【伍】--:
如果是这样,那“文字图层说”就更站不住脚了呀。
而且各种离谱的字体是怎么实现的呢?如果是先生成文字作为纯文字参考图,这种强参考带来的引导大概是无法实现复杂的字体表现形式的,现在image2出一张复杂的多字宣传图,可能出种非常大量的不同字体,从原理上讲,这除了生图模型原生生图能力之外,什么东西能做到这么准确的多字体表现,同时相应位置所在的字体还十分恰当的呀。。
--【陆】--:
生成 PSD 文件的功能应该跟 image2 是同一个吧,image 2 去生成应该也是拆成单张在合成PSD吧
--【柒】--:
感觉更有可能,指引下字形什么的。不然纯叠加的话,字体应该很有限的
--【捌】--:
如果是这样的话文字清晰度就不应该随quality发生变化,可能最多文字不够贴合背景,风格化不够好看。
但是实际上low level是会直接出乱码的
--【玖】--:
不太可能,我让gpt帮我翻译、嵌字漫画,漫画里的艺术字也能保持原本的风格,只是弄一层文字层应该只会出现默认字体吧。
--【拾】--:
这个我个人觉得还是只是 UI 上的一点小巧思,没法说明真的有 Agent
--【拾壹】--:
我也思考过这个现象,可能的一个解释是先生成了要使用的文字作为纯文字参考图,像字典一样,然后再用这个参考图生成海报?这样确实可以约束文字生成的稳定性。
--【拾贰】--:
这直接就是GPT做的吧?反映的是GPT的文件处理能力。网页版有各种文件处理工具,会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。
--【拾叁】--:
他那个psd说实话
也只是psd文件
基本没啥用
不过
你这个猜测有一定道理
豆包的5.0到现在都还是lite版
不知道字节啥时候抬出来
--【拾肆】--:
web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的,但是说不定真的是一个agent在做?
之前看到这几句话没啥感觉,现在感觉说不定有点东西哦
--【拾伍】--:
你这样的任务,在image-2出来之前应该也是能做到的,它用不到Image-2图像模型的生图能力呀。
--【拾陆】--:
找个图片测试了一下
a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB
2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB
--【拾柒】--:
在生成跟代码混搭的讲解图片的时候经常性出现部分乱码(也不能说完全的乱,能看出大概)
deepcake:但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下
--【拾捌】--:
这个过程中似乎都没调用gpt image 2
--【拾玖】--:
我测试了一下,我发现出来的图,并不是用image 2生成的素材,好乱!
跑了11分钟,看到了结果
由于从 25 年底开始研究 AI 漫剧,我高强度使用了 nano banana、sora 2、seedream、wan等生图和生视频模型,以及结合 ComfyUI 搭建并使用了一些媒体处理工作流,在 gpt-image-2 刚发布的时候我在朋友圈发布了这样的观点:
image938×288 42.7 KB
结合今天听说 gpt-image-2 可以生成 psd 文件:
image1210×1296 181 KB
我认为我的判断应该是接近真相的。gpt-image-2 是一个 Agent,不是一个模型。
同理,豆包 seed 强大的多模态应该也是 Agent(这个应该用过 API 的能感觉出来,多模态任务中的某些返回跟硬编码一样准确)
但是我也发现 gpt-image-2 生成的文字,特别是生僻字,会出现和 nano banana 一样的幻觉,我猜可能是混合方案。gpt-image-2 的文字一致性实在太好了。
还有我看到有佬反馈 gpt-image-2 生成的 psd 是混乱的。但是我认为不能说明它没有使用类似 ps 的工作流程来生成图片。
有没有佬们有更深入的发现
网友解答:--【壹】--:
我不管它原理是什么样的,但是我发现这个思路是非常让人眼前一亮的,卧槽,这不无敌了?
GPT本身就内置了沙盒可以跑任何代码,那么它在内部也可以调用iamge 2模型,它自己在沙盒里跑PSD拼接,跑图片出来,然后拼成一个PSD,这个思路真的很厉害了,我的天!
让我大脑瞬间通透的!
更新
跑了11分钟思考后我发现,它没调用image 2模型,是直接用代码画的…
但是这个思路确实可以做一个Agent
--【贰】--:
但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下
--【叁】--:
不太可能的,如果真的是先生成psd,为什么不直接给你psd文件,合成图片是画蛇添足啊。这个模型架构估计很复杂,既有神奇的指令遵循能力,还有超绝审美和文字准确度
--【肆】--:
不这么认为,其实中文还是有不低的概率出现AI生图典型的乱码文字的,有时候甚至感觉感觉乱码概率高于nano Banana pro。
之前用nano banana pro,网页版直接生图,个别文字可能会出现乱码,但是点击下载按钮,你看下载后的高清大图,你会发现乱码的文字神奇地变成正确的文字了。
所以虽然点击下载时会提示“正在下载完整尺寸的图片…”(等很久),但其实应该是后台用更多的步数或其他参数重新生成了这张图片。
gpt-image-2可能也是类似,在image2正式推出的前后,佬友们应该明显感觉到有过一段降智的现象,图片内容一看就知道肯定是image2生成的,但文字乱码出现几率就是提高了很多。结合之前那个竞技场榜单上,排在第一的gpt-image-2,标注的是“gpt-image-2(medium)”,推测是和nano Banana一样,“思考等级”/分辨率给的不同,会影响文字的准确率。
所以我不认为文字是覆盖的文字图层,应该单纯的就是模型生成文字的效果好。
如果是文字图层,那这绝对是十分容易出现破绽的地方,但在佬友们大量生成的各种海报里,多么复杂的文字表现形式都出现过,文字准确率的表现却是十分均匀的。
--【伍】--:
如果是这样,那“文字图层说”就更站不住脚了呀。
而且各种离谱的字体是怎么实现的呢?如果是先生成文字作为纯文字参考图,这种强参考带来的引导大概是无法实现复杂的字体表现形式的,现在image2出一张复杂的多字宣传图,可能出种非常大量的不同字体,从原理上讲,这除了生图模型原生生图能力之外,什么东西能做到这么准确的多字体表现,同时相应位置所在的字体还十分恰当的呀。。
--【陆】--:
生成 PSD 文件的功能应该跟 image2 是同一个吧,image 2 去生成应该也是拆成单张在合成PSD吧
--【柒】--:
感觉更有可能,指引下字形什么的。不然纯叠加的话,字体应该很有限的
--【捌】--:
如果是这样的话文字清晰度就不应该随quality发生变化,可能最多文字不够贴合背景,风格化不够好看。
但是实际上low level是会直接出乱码的
--【玖】--:
不太可能,我让gpt帮我翻译、嵌字漫画,漫画里的艺术字也能保持原本的风格,只是弄一层文字层应该只会出现默认字体吧。
--【拾】--:
这个我个人觉得还是只是 UI 上的一点小巧思,没法说明真的有 Agent
--【拾壹】--:
我也思考过这个现象,可能的一个解释是先生成了要使用的文字作为纯文字参考图,像字典一样,然后再用这个参考图生成海报?这样确实可以约束文字生成的稳定性。
--【拾贰】--:
这直接就是GPT做的吧?反映的是GPT的文件处理能力。网页版有各种文件处理工具,会开个虚拟机并提供工具让GPT处理文件。
不能说是gpt-image-2做的。
--【拾叁】--:
他那个psd说实话
也只是psd文件
基本没啥用
不过
你这个猜测有一定道理
豆包的5.0到现在都还是lite版
不知道字节啥时候抬出来
--【拾肆】--:
web上面写 “making first sketch…” “refining…” 虽然有可能是减少用户等待的烦躁感的,但是说不定真的是一个agent在做?
之前看到这几句话没啥感觉,现在感觉说不定有点东西哦
--【拾伍】--:
你这样的任务,在image-2出来之前应该也是能做到的,它用不到Image-2图像模型的生图能力呀。
--【拾陆】--:
找个图片测试了一下
a6b3f20d8d36634ecd37b6db902fa8911224×860 139 KB
2bfb1ce62372f27559d2ca7244f991022188×2018 778 KB
--【拾柒】--:
在生成跟代码混搭的讲解图片的时候经常性出现部分乱码(也不能说完全的乱,能看出大概)
deepcake:但gpt-image-2的文字还是有瑕疵,尤其是1K生图的情况下
--【拾捌】--:
这个过程中似乎都没调用gpt image 2
--【拾玖】--:
我测试了一下,我发现出来的图,并不是用image 2生成的素材,好乱!
跑了11分钟,看到了结果

