震惊!CodeX还能看视频学习了?
- 内容介绍
- 文章标签
- 相关推荐
codex这么强吗,让他用python实现一个视频特效,他还自己找B站视频学习了。
我还找到这个视频看了一下,确实是我要的效果。
c01987a2d7dea962c42eee41b0d325b41310×118 8.45 KB
补充一下运行过程:
image1304×1092 76.3 KB
image1296×1354 117 KB
Bingqiang Zhou:网友解答:进一步测试,已经完全具备看视频帧的能力!
image1324×1418 87.8 KB
image1920×1098 158 KB
--【壹】--:
自我进化开始了
--【贰】--:
真的假的
--【叁】--:
在 cli 看到 view image 才是看图了
--【肆】--:
没有接任何mcp和skill
image1582×1160 64.9 KB
image1746×962 47 KB
--【伍】--:
没有吧?你是不是接了什么MCP或者Skill?默认应该不会。
--【陆】--:
,是不是参考了字幕?
--【柒】--:
我也表示震惊,刚刚看了一下运行的过程!把截图补充再上面了!
--【捌】--:
用的是codex模型?我之前感觉就5.2是那种会老老实实按部就班干活的()
--【玖】--:
规划了17分钟,执行才用11分钟
5bfdd515ef06194e80f18e58f6328f3e498×160 1.82 KB
--【拾】--:
看运行过程,不是参考字幕,看着真像是再看视频学习!
--【拾壹】--:
用的GPT-5.3-Codex,High
--【拾贰】--:
找了一下,没找到view image,然后问了他一下,回复一下。然后我又找了一个直接发截图让他实现功能的对话,也没看见view image的调用。这是为啥?
image1292×252 12.7 KB
image1120×216 12.8 KB
--【拾叁】--:
是的,他是先下载720p的视频,然后拆成图像看的!
image1298×734 55.5 KB
--【拾肆】--:
这得跑多久啊
--【拾伍】--:
应该没那么人性化,估计只是参考网页的title或者文字说明
--【拾陆】--:
看起来是一帧一帧看的
--【拾柒】--:
这么强?!
--【拾捌】--:
哈人,这么复杂的吗
--【拾玖】--:
技术上不难实现,语音识别+关键帧+补帧,大致能解决?这是这种方案比较消耗内存和算力。阿里的通义听悟,字节的豆包插件,百度网盘都在这方面布局
codex这么强吗,让他用python实现一个视频特效,他还自己找B站视频学习了。
我还找到这个视频看了一下,确实是我要的效果。
c01987a2d7dea962c42eee41b0d325b41310×118 8.45 KB
补充一下运行过程:
image1304×1092 76.3 KB
image1296×1354 117 KB
Bingqiang Zhou:网友解答:进一步测试,已经完全具备看视频帧的能力!
image1324×1418 87.8 KB
image1920×1098 158 KB
--【壹】--:
自我进化开始了
--【贰】--:
真的假的
--【叁】--:
在 cli 看到 view image 才是看图了
--【肆】--:
没有接任何mcp和skill
image1582×1160 64.9 KB
image1746×962 47 KB
--【伍】--:
没有吧?你是不是接了什么MCP或者Skill?默认应该不会。
--【陆】--:
,是不是参考了字幕?
--【柒】--:
我也表示震惊,刚刚看了一下运行的过程!把截图补充再上面了!
--【捌】--:
用的是codex模型?我之前感觉就5.2是那种会老老实实按部就班干活的()
--【玖】--:
规划了17分钟,执行才用11分钟
5bfdd515ef06194e80f18e58f6328f3e498×160 1.82 KB
--【拾】--:
看运行过程,不是参考字幕,看着真像是再看视频学习!
--【拾壹】--:
用的GPT-5.3-Codex,High
--【拾贰】--:
找了一下,没找到view image,然后问了他一下,回复一下。然后我又找了一个直接发截图让他实现功能的对话,也没看见view image的调用。这是为啥?
image1292×252 12.7 KB
image1120×216 12.8 KB
--【拾叁】--:
是的,他是先下载720p的视频,然后拆成图像看的!
image1298×734 55.5 KB
--【拾肆】--:
这得跑多久啊
--【拾伍】--:
应该没那么人性化,估计只是参考网页的title或者文字说明
--【拾陆】--:
看起来是一帧一帧看的
--【拾柒】--:
这么强?!
--【拾捌】--:
哈人,这么复杂的吗
--【拾玖】--:
技术上不难实现,语音识别+关键帧+补帧,大致能解决?这是这种方案比较消耗内存和算力。阿里的通义听悟,字节的豆包插件,百度网盘都在这方面布局

