震惊!CodeX还能看视频学习了?

2026-04-11 14:561阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

codex这么强吗,让他用python实现一个视频特效,他还自己找B站视频学习了。
我还找到这个视频看了一下,确实是我要的效果。

c01987a2d7dea962c42eee41b0d325b41310×118 8.45 KB

补充一下运行过程:
image1304×1092 76.3 KB

image1296×1354 117 KB

Bingqiang Zhou:

进一步测试,已经完全具备看视频帧的能力!

image1324×1418 87.8 KB

image1920×1098 158 KB

网友解答:
--【壹】--:

自我进化开始了


--【贰】--:

真的假的


--【叁】--:

在 cli 看到 view image 才是看图了


--【肆】--:

没有接任何mcp和skill
image1582×1160 64.9 KB
image1746×962 47 KB


--【伍】--:

没有吧?你是不是接了什么MCP或者Skill?默认应该不会。


--【陆】--:

,是不是参考了字幕?


--【柒】--:

我也表示震惊,刚刚看了一下运行的过程!把截图补充再上面了!


--【捌】--:

用的是codex模型?我之前感觉就5.2是那种会老老实实按部就班干活的()


--【玖】--:

规划了17分钟,执行才用11分钟
5bfdd515ef06194e80f18e58f6328f3e498×160 1.82 KB


--【拾】--:

看运行过程,不是参考字幕,看着真像是再看视频学习!


--【拾壹】--:

用的GPT-5.3-Codex,High


--【拾贰】--:

找了一下,没找到view image,然后问了他一下,回复一下。然后我又找了一个直接发截图让他实现功能的对话,也没看见view image的调用。这是为啥?
image1292×252 12.7 KB
image1120×216 12.8 KB


--【拾叁】--:

是的,他是先下载720p的视频,然后拆成图像看的!
image1298×734 55.5 KB


--【拾肆】--:

这得跑多久啊


--【拾伍】--:

应该没那么人性化,估计只是参考网页的title或者文字说明


--【拾陆】--:

看起来是一帧一帧看的


--【拾柒】--:

这么强?!


--【拾捌】--:

哈人,这么复杂的吗


--【拾玖】--:

技术上不难实现,语音识别+关键帧+补帧,大致能解决?这是这种方案比较消耗内存和算力。阿里的通义听悟,字节的豆包插件,百度网盘都在这方面布局

问题描述:

codex这么强吗,让他用python实现一个视频特效,他还自己找B站视频学习了。
我还找到这个视频看了一下,确实是我要的效果。

c01987a2d7dea962c42eee41b0d325b41310×118 8.45 KB

补充一下运行过程:
image1304×1092 76.3 KB

image1296×1354 117 KB

Bingqiang Zhou:

进一步测试,已经完全具备看视频帧的能力!

image1324×1418 87.8 KB

image1920×1098 158 KB

网友解答:
--【壹】--:

自我进化开始了


--【贰】--:

真的假的


--【叁】--:

在 cli 看到 view image 才是看图了


--【肆】--:

没有接任何mcp和skill
image1582×1160 64.9 KB
image1746×962 47 KB


--【伍】--:

没有吧?你是不是接了什么MCP或者Skill?默认应该不会。


--【陆】--:

,是不是参考了字幕?


--【柒】--:

我也表示震惊,刚刚看了一下运行的过程!把截图补充再上面了!


--【捌】--:

用的是codex模型?我之前感觉就5.2是那种会老老实实按部就班干活的()


--【玖】--:

规划了17分钟,执行才用11分钟
5bfdd515ef06194e80f18e58f6328f3e498×160 1.82 KB


--【拾】--:

看运行过程,不是参考字幕,看着真像是再看视频学习!


--【拾壹】--:

用的GPT-5.3-Codex,High


--【拾贰】--:

找了一下,没找到view image,然后问了他一下,回复一下。然后我又找了一个直接发截图让他实现功能的对话,也没看见view image的调用。这是为啥?
image1292×252 12.7 KB
image1120×216 12.8 KB


--【拾叁】--:

是的,他是先下载720p的视频,然后拆成图像看的!
image1298×734 55.5 KB


--【拾肆】--:

这得跑多久啊


--【拾伍】--:

应该没那么人性化,估计只是参考网页的title或者文字说明


--【拾陆】--:

看起来是一帧一帧看的


--【拾柒】--:

这么强?!


--【拾捌】--:

哈人,这么复杂的吗


--【拾玖】--:

技术上不难实现,语音识别+关键帧+补帧,大致能解决?这是这种方案比较消耗内存和算力。阿里的通义听悟,字节的豆包插件,百度网盘都在这方面布局