即梦 2.0 排不上队?我用 1.5 Pro API 搓了个自动续拍工具链,实现可控连续叙事

2026-04-11 10:351阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

TL;DR

即梦 2.0 的 Agent 模式确实惊艳,但现状是:

  • 2.0 不支持 API 调用,只能在体验中心排队
  • 排队意味着无法控制生成顺序——你没法保证第一段生完再续第二段
  • 没有顺序控制 = 没有画面连续性 = 做不了连贯叙事

所以我换了个思路:用 Seedance 1.5 Pro 的 API + 首尾帧自动衔接,搓了一套 CLI 工具,实现了:

首帧图 → 自动生成 12s 视频 → 提取尾帧 → 尾帧作为下一段首帧 → 循环 → ffmpeg 拼接成片

全自动、可编程、镜头衔接可控。 一行命令跑完整部短片。

GitHub: GitHub - PCPrincipal67/seedance-chain: Automated long-form video generation via Volcano Engine Ark API (Seedance). Chain-shot workflow before Seedance 2.0 API launch. · GitHub


为什么要做这个

玩即梦 2.0 的时候被 Agent 模式惊到了——多模态输入、自动编排镜头、原生音频,感觉离"AI 导演"不远了。

然后现实打脸:

  1. 2.0 暂不支持 API(官方原话:“仅支持控制台体验中心,敬请期待”)
  2. 体验中心要排队,生成一段等半天
  3. 最致命的:排队模式下你没法串联镜头——第一段没生完,你怎么拿它的尾帧去续第二段?

这就意味着如果你想做一个 2 分钟的连贯短片(10 段 × 12 秒),在 2.0 体验中心里基本只能手动一段段等、手动截尾帧、手动喂进去

Seedance 1.5 Pro 已经开放了 API,虽然没有 Agent 模式,但它有一个关键能力:

return_last_frame=True —— 生成完视频后返回最后一帧

有了这个,自动续拍链就成立了。


工作原理

┌─────────────┐ │ 首帧图(AI生成) │ └──────┬──────┘ ▼ ┌──────────────────────────────┐ │ S01: 提交首帧 + prompt → 12s 视频 │──→ 下载 S01.mp4 │ return_last_frame=True │──→ 提取 S01 尾帧 └──────────────┬───────────────┘ ▼ ┌──────────────────────────────┐ │ S02: S01尾帧作为首帧 + prompt │──→ 下载 S02.mp4 │ return_last_frame=True │──→ 提取 S02 尾帧 └──────────────┬───────────────┘ ▼ ... ▼ ┌──────────────────────────────┐ │ S10: S09尾帧作为首帧 + prompt │──→ 下载 S10.mp4 └──────────────┬───────────────┘ ▼ ┌──────────────────────────────┐ │ ffmpeg 重编码拼接 → final_film.mp4 │ └──────────────────────────────┘

每一段的尾帧自动成为下一段的首帧,画面自然衔接,不需要手动截图


实际效果

拿它做了一个大漠武侠短片的概念验证(致敬《东邪西毒》):

演示视频下载:final_film.mp4(149MB,5段 × 12秒 = 1分钟)

  • 素材准备:用 AI 生图(nano-banana)合成人物+场景的首帧,包括换脸、古装化、风沙做旧
  • 生成--chain --batch-size 1 一行命令跑完
  • 拼接:自动 ffmpeg 合片,带去重帧处理
  • 音频:Seedance 1.5 Pro 原生生成,视频自带配乐和环境音

老实说 1.5 Pro 的打戏质量一般(复杂双人动作容易变形),但叙事类镜头、氛围营造、独白登场这类效果相当不错。你们下载看看就知道了。


核心卖点

相比即梦 2.0 体验中心

即梦 2.0 体验中心 seedance-chain (1.5 Pro API)
镜头连续性 手动截帧续接,排队不可控 自动尾帧→首帧,全自动
批量生产 一次一段,等排队 一行命令跑完整部片
可编程 不可 Python 脚本,随意编排
音频 原生支持 1.5 Pro 也支持
画质上限 2.0 更强 1080p,够用
API 审核 N/A 比网页端宽松

相比纯手工流程

以前做 AI 短片的流程:生成 → 手动下载 → 手动截最后一帧 → 手动上传当首帧 → 再生成…

现在:

python seedance_video.py --chain --batch-size 1 # 出去喝杯咖啡,回来片子就好了


快速上手

git clone https://github.com/PCPrincipal67/seedance-chain.git cd seedance-chain python -m venv venv && source venv/bin/activate pip install -r requirements.txt # 配置 API Key cp env.example .env # 编辑 .env,填入你的 VOLC_ARK_API_KEY # 编辑 seedance_video.py 里的 SHOTS 列表,定义你的镜头 # 然后一键跑: python seedance_video.py --chain --batch-size 1

需要:

  1. 火山方舟 API Key(控制台获取)
  2. 开通 Seedance 1.5 Pro 模型(模型广场)

踩坑备忘(给后来人)

写了一份完整的 经验手册,这里摘几个关键的:

认证:Ark 的内容生成 API 不支持 AK/SK,必须用 API Key。别跟我一样拿着 AK/SK 折腾半天。

模型要单独开通:拿到 API Key ≠ 能用模型。去模型广场搜 seedance,逐个点开通。

首帧图不能太大:超过 1MB 的 base64 上传会很慢甚至超时。建议压到 800KB 以内。

拼接必须重编码:各段视频的编码参数可能微妙不同,ffmpeg -c copy 会跳帧。要用 -c:v libx264 -c:a aac

打戏别期待太多:1.5 Pro 对复杂多人武打动作理解有限,建议用短时长(5-8s)+ 简单单一动作。叙事/氛围类镜头才是它的强项。


展望

这套工具链的价值会随着 API 能力升级而放大:

  • Seedance 2.0 API 开放后:直接换个 model ID,链式续拍逻辑完全通用。而且 2.0 支持 15s + 多模态参考,到时候每段能承载更多内容
  • 加入 LLM 编排:让大模型根据剧本自动拆镜头、写 prompt、编排参考素材,实现真正的 “文字→成片”
  • 参考图 + 续拍混用:用 1.0 Fast 的参考图能力锁定角色/风格一致性,再切 1.5 Pro 续拍生成

现在是 1.5 Pro 的"手动挡",但底盘已经搭好了。等 2.0 API 一开,直接升级成"自动挡"。


GitHub: GitHub - PCPrincipal67/seedance-chain: Automated long-form video generation via Volcano Engine Ark API (Seedance). Chain-shot workflow before Seedance 2.0 API launch. · GitHub

MIT License,随便用。有问题开 issue 或者楼下讨论。

如果觉得有用,star 一下呗

网友解答:
--【壹】--:

这个我也不知道原理,模型在这种脚本情况下,自己就衔接的很好了,你可以看我项目的Release,我上传了视频。


--【贰】--:

大佬太牛了


--【叁】--:

平均不止1块,我生成那个1分钟的视频,实际上是65块钱左右
1.5 Pro就是这个价格,2.0应该是一样的


--【肆】--:

有点贵呀,我的抖音梦又结束了


--【伍】--:

佬 问一下每一段视频之间的音频如何保证一致性和连贯性呢


--【陆】--:

佬,你生成这个视频的成本是多少,合适的话我给我的项目也用豆包的模型

昨天有人说seedance2的成本是1秒1块,感觉有点贵了

这还没算上抽卡的费用


--【柒】--:

学习一下


--【捌】--:

哦,我表述有点歧义,我是说不支持同时设置首帧和尾帧,我这个项目就是用首帧无限生成的


--【玖】--:

牛的牛的


--【拾】--:

grok支持首帧和参考图 可以无限延续了


--【拾壹】--:

都很强,强的离谱


--【拾贰】--:

真厉害,学习一下


--【拾叁】--:

学习了,很强!


--【拾肆】--:

感谢分享


--【拾伍】--:
github.com

GitHub - Honghurumeng/grok_video_gen_merge: grok2api,生成分镜脚本,生成视频,合并,各个环节可以进行确认和重新生成

grok2api,生成分镜脚本,生成视频,合并,各个环节可以进行确认和重新生成

我做了一个一模一样逻辑的O(∩_∩)O哈哈~,可以使用grok2api

不过这个模型的能力有限

而且2api不能限制画面比例

而且不支持首尾帧

用豆包的模型的话应该首尾帧生成更好控制吧

grok胜在免费


--【拾陆】--:

这就烧钱了呀 api价格玩不起


--【拾柒】--:

感谢大佬!


--【拾捌】--:

前排围观支持一下


--【拾玖】--:

好厉害的佬