震惊！CodeX还能看视频学习了？

2026-04-11 14:561阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

codex这么强吗，让他用python实现一个视频特效，他还自己找B站视频学习了。
我还找到这个视频看了一下，确实是我要的效果。

c01987a2d7dea962c42eee41b0d325b41310×118 8.45 KB

补充一下运行过程：
image1304×1092 76.3 KB

image1296×1354 117 KB

Bingqiang Zhou:

进一步测试，已经完全具备看视频帧的能力！

image1324×1418 87.8 KB

image1920×1098 158 KB

网友解答：

--【壹】--：

自我进化开始了

--【贰】--：

真的假的

--【叁】--：

在 cli 看到 view image 才是看图了

--【肆】--：

没有接任何mcp和skill
image1582×1160 64.9 KB
image1746×962 47 KB

--【伍】--：

没有吧？你是不是接了什么MCP或者Skill？默认应该不会。

--【陆】--：

，是不是参考了字幕？

--【柒】--：

我也表示震惊，刚刚看了一下运行的过程！把截图补充再上面了！

--【捌】--：

用的是codex模型？我之前感觉就5.2是那种会老老实实按部就班干活的（）

--【玖】--：

规划了17分钟，执行才用11分钟
5bfdd515ef06194e80f18e58f6328f3e498×160 1.82 KB

--【拾】--：

看运行过程，不是参考字幕，看着真像是再看视频学习！

--【拾壹】--：

用的GPT-5.3-Codex，High

--【拾贰】--：

找了一下，没找到view image，然后问了他一下，回复一下。然后我又找了一个直接发截图让他实现功能的对话，也没看见view image的调用。这是为啥？
image1292×252 12.7 KB
image1120×216 12.8 KB

--【拾叁】--：

是的，他是先下载720p的视频，然后拆成图像看的！
image1298×734 55.5 KB

--【拾肆】--：

这得跑多久啊

--【拾伍】--：

应该没那么人性化，估计只是参考网页的title或者文字说明

--【拾陆】--：

看起来是一帧一帧看的

--【拾柒】--：

这么强？！

--【拾捌】--：

哈人，这么复杂的吗

--【拾玖】--：

技术上不难实现，语音识别+关键帧+补帧，大致能解决？这是这种方案比较消耗内存和算力。阿里的通义听悟，字节的豆包插件，百度网盘都在这方面布局

标签：人工智能纯水