关于影视短剧创作工具的开发历程以及1.0Docker版本的成功发布!
- 内容介绍
- 文章标签
- 相关推荐
今天终于把影视短剧创作平台的1.0版本(Docker本地包)完成并推送到Github上面去了,算是小小的一个里程碑,所以想记录一下,有点啰嗦。Vibe Coding的应用,大佬们别笑话!
去年下半年因为爱好接触到了动漫视频制作,也因为一时的冲动,怒冲了一年的可灵黑金会员,但当时做视频需要结合gemini规划分镜的图片及视频提示词,再到可灵的网页版上面输出视频,就觉得非常麻烦。当时我就想为什么不做一个能把脚本、分镜、图片、视频全部搞定的一个应用平台呢!说干就干!但其实当时的我还只是一个使用web与AI聊天的小白!哪里懂什么前端、后端、云端服务器、备案啊,现在想起来当时的自己真是初生牛犊不怕虎啊。
第一阶段:我最先接触的国外模型就是gemini,当时的gemini还是挺好用的,多模态的能力不能说非常出色,但至少均衡,然后自己在AI Studio上面折腾出了自己的第一个应用前端(google当时的前端审美依然很顶,自己也还算满意)
2523×1257 87.4 KB
在这个过程学会了上下文过长会卡、也会出现幻觉,需要提前做好文本记忆备份,方便新的对话无缝衔接上,同时可视化的回撤功能对于初期的我很友好,比如我是新增功能,结果原文件代码居然从600行变成了550行,从正常的逻辑判断AI肯定犯蠢了,我就能马上点击回撤,不让错误继续下去,虽然这个方法很笨,但非常适用于新手的我。
第二阶段:光有前端肯定不行呀,所以我就开始折腾IDE(当时还不习惯CLI),VS Code、Cursor、OpenCode、Trae、Antigravity、Codex,全都下载了一遍,也是因为有gemini pro,所以即使知道Antigravity不太好用而且对于环境要求比较高,但对于前期不想花钱的我,只能咬牙用它了,虽然写后端的过程中犯了很多错误,但至少该有的框架以及结构还是帮我做出来了,只能本地跑跑,其实到这里我依然只是抱着我自己本地使用的想法。
第三阶段:我说一点关于产品逻辑的内容。我的想法很简单,在我的应该用里面输入一些想法就能自动出分镜脚本、图片以及视频,而且当前应用也已经实现了。为了确保生图的人物、场景、物品的一致性,我增加了参考图锚定功能,也就是生成图片、生成分镜脚本、生成视频都是能看到有哪些人物、哪些场景、哪些物品的,为了让人物在不同分镜里面表现得更自然,除了输出人物的多维视角图,我还增加了6种情绪图(喜怒哀惊惧肃),不同的场景调用不同的情绪:
1971×969 228 KB
还有一个痛点就是初期人物与场景的融合,非常僵硬,图片总是被作为背景板,人物也总是看着镜头,所以我对场景图增加了多维空间逻辑理解(正面视角、上帝视角、侧视角、后视角、仰视角、俯视角),这样人物就能很好的融入到场景中去,当然还需配合不同的运镜视角,解决了人物一直盯着镜头看的尴尬画面。
2139×1251 124 KB
分镜脚本有可能依然存在不如意的剧情或者漏掉的剧情画面,所以我又增加了一个多图功能,其实就是多宫格,目前最高可以连续输出12个不同分镜画面,当然我想的话,也是可以增加到24宫格、36宫格的,这个功能的核心主要是弥补缺失的镜头,比如我想做一段高燃打斗场景,那这一组不同的运镜方式、不同的打斗动作、不同的视角就能帮我很好的实现。
3-11920×1045 371 KB
当然还做了不同情绪的语音功能,接入了MINIMAX,也可以上传自定义声音全程绑定角色的音色,还有简单的画布,就不一一展开了。整体来讲就是从一开始只是简单想做一个功能,而且是自用的,到现在越来越系统,每个功能区之间都是有链路逻辑的,只要触碰其中一个环节:可能是顺序、也可能是传递层、也可能是语义、也可能是请求规则,都有可能影响到图片的一致性、视频的一致性,总体来说是一个慢工细活,因为多太多太多的细节需要打磨了。
第四阶段:这个时候的我已经进化到习惯使用CLI了,产品不知不觉做成了偏系统,所以就想着把它做成其他人也可以用呢?那就继续干吧!今年用的最多的就是CODEX,因为CODEX的客户端个人觉得还挺不错,所以客户端+CLI同时用,有一点很好的就是客户端与CLI的历史对话是时时互通的,因为我对CPA之类的反代工具用得不是很好,所以即使我用多个会员账号交替登录,也不影响我的对话记录,OpenAI简直是我的救世主啊! 然后我又做了私有化本地部署、Docker镜像包以及云端SaaS端口,以及云端服务器部署,这个过程说实话对于不是科班出身的我来说,是有挑战的。但黑暗过后就是黎明,我也看到了一丝曙光,最重要的是通过这个项目我真的学到了很多自己以前不曾接触到的知识和工具!
我加入L站的时间并不长,但是从年初就开始以游客的身份逛呀逛呀!感觉就是发现了新大陆一般,社区里面的知识让我欲罢不能,很多大佬的分享让我确确实实了解到也学习到了新知识,在这里,也还是感谢佬们的分享和始皇陛下的社区搭建!
因为我的应用还不成熟,所以并没有完全开源,但是做了Docker本地运行包,原本是想发出来给有兴趣的佬免费使用的,奈何不是开源项目无法放链接,所以就这样记录一下吧!
网友解答:--【壹】--:
佬可以把生成视频放上来,看看效果0.0
--【贰】--:
佬,项目名字叫什么呀?我去git上面看一看效果
--【叁】--:
佬,我刚试了一下,上传不了视频,只能传图片。
今天终于把影视短剧创作平台的1.0版本(Docker本地包)完成并推送到Github上面去了,算是小小的一个里程碑,所以想记录一下,有点啰嗦。Vibe Coding的应用,大佬们别笑话!
去年下半年因为爱好接触到了动漫视频制作,也因为一时的冲动,怒冲了一年的可灵黑金会员,但当时做视频需要结合gemini规划分镜的图片及视频提示词,再到可灵的网页版上面输出视频,就觉得非常麻烦。当时我就想为什么不做一个能把脚本、分镜、图片、视频全部搞定的一个应用平台呢!说干就干!但其实当时的我还只是一个使用web与AI聊天的小白!哪里懂什么前端、后端、云端服务器、备案啊,现在想起来当时的自己真是初生牛犊不怕虎啊。
第一阶段:我最先接触的国外模型就是gemini,当时的gemini还是挺好用的,多模态的能力不能说非常出色,但至少均衡,然后自己在AI Studio上面折腾出了自己的第一个应用前端(google当时的前端审美依然很顶,自己也还算满意)
2523×1257 87.4 KB
在这个过程学会了上下文过长会卡、也会出现幻觉,需要提前做好文本记忆备份,方便新的对话无缝衔接上,同时可视化的回撤功能对于初期的我很友好,比如我是新增功能,结果原文件代码居然从600行变成了550行,从正常的逻辑判断AI肯定犯蠢了,我就能马上点击回撤,不让错误继续下去,虽然这个方法很笨,但非常适用于新手的我。
第二阶段:光有前端肯定不行呀,所以我就开始折腾IDE(当时还不习惯CLI),VS Code、Cursor、OpenCode、Trae、Antigravity、Codex,全都下载了一遍,也是因为有gemini pro,所以即使知道Antigravity不太好用而且对于环境要求比较高,但对于前期不想花钱的我,只能咬牙用它了,虽然写后端的过程中犯了很多错误,但至少该有的框架以及结构还是帮我做出来了,只能本地跑跑,其实到这里我依然只是抱着我自己本地使用的想法。
第三阶段:我说一点关于产品逻辑的内容。我的想法很简单,在我的应该用里面输入一些想法就能自动出分镜脚本、图片以及视频,而且当前应用也已经实现了。为了确保生图的人物、场景、物品的一致性,我增加了参考图锚定功能,也就是生成图片、生成分镜脚本、生成视频都是能看到有哪些人物、哪些场景、哪些物品的,为了让人物在不同分镜里面表现得更自然,除了输出人物的多维视角图,我还增加了6种情绪图(喜怒哀惊惧肃),不同的场景调用不同的情绪:
1971×969 228 KB
还有一个痛点就是初期人物与场景的融合,非常僵硬,图片总是被作为背景板,人物也总是看着镜头,所以我对场景图增加了多维空间逻辑理解(正面视角、上帝视角、侧视角、后视角、仰视角、俯视角),这样人物就能很好的融入到场景中去,当然还需配合不同的运镜视角,解决了人物一直盯着镜头看的尴尬画面。
2139×1251 124 KB
分镜脚本有可能依然存在不如意的剧情或者漏掉的剧情画面,所以我又增加了一个多图功能,其实就是多宫格,目前最高可以连续输出12个不同分镜画面,当然我想的话,也是可以增加到24宫格、36宫格的,这个功能的核心主要是弥补缺失的镜头,比如我想做一段高燃打斗场景,那这一组不同的运镜方式、不同的打斗动作、不同的视角就能帮我很好的实现。
3-11920×1045 371 KB
当然还做了不同情绪的语音功能,接入了MINIMAX,也可以上传自定义声音全程绑定角色的音色,还有简单的画布,就不一一展开了。整体来讲就是从一开始只是简单想做一个功能,而且是自用的,到现在越来越系统,每个功能区之间都是有链路逻辑的,只要触碰其中一个环节:可能是顺序、也可能是传递层、也可能是语义、也可能是请求规则,都有可能影响到图片的一致性、视频的一致性,总体来说是一个慢工细活,因为多太多太多的细节需要打磨了。
第四阶段:这个时候的我已经进化到习惯使用CLI了,产品不知不觉做成了偏系统,所以就想着把它做成其他人也可以用呢?那就继续干吧!今年用的最多的就是CODEX,因为CODEX的客户端个人觉得还挺不错,所以客户端+CLI同时用,有一点很好的就是客户端与CLI的历史对话是时时互通的,因为我对CPA之类的反代工具用得不是很好,所以即使我用多个会员账号交替登录,也不影响我的对话记录,OpenAI简直是我的救世主啊! 然后我又做了私有化本地部署、Docker镜像包以及云端SaaS端口,以及云端服务器部署,这个过程说实话对于不是科班出身的我来说,是有挑战的。但黑暗过后就是黎明,我也看到了一丝曙光,最重要的是通过这个项目我真的学到了很多自己以前不曾接触到的知识和工具!
我加入L站的时间并不长,但是从年初就开始以游客的身份逛呀逛呀!感觉就是发现了新大陆一般,社区里面的知识让我欲罢不能,很多大佬的分享让我确确实实了解到也学习到了新知识,在这里,也还是感谢佬们的分享和始皇陛下的社区搭建!
因为我的应用还不成熟,所以并没有完全开源,但是做了Docker本地运行包,原本是想发出来给有兴趣的佬免费使用的,奈何不是开源项目无法放链接,所以就这样记录一下吧!
网友解答:--【壹】--:
佬可以把生成视频放上来,看看效果0.0
--【贰】--:
佬,项目名字叫什么呀?我去git上面看一看效果
--【叁】--:
佬,我刚试了一下,上传不了视频,只能传图片。

