求教,如何给视频加上音频同步的字幕

2026-04-13 12:011阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

请问各位佬,我做了一个PPT,然后每页PPT都有对应的讲课稿的音频。音频使用minmax clone的声音生成的。然后用ffmpeg生成视频。

我想给视频加上字幕,用Whisper识别音频,生成对应视频的字幕文件,但是这个方法问题在于字幕和视频播放的声音不同步,时间差特别大。

想请教各位佬,有没有比较好用的给视频配上同步音频字幕的方法,谢谢。

网友解答:
--【壹】--:

教你个最简单的方法,不要用剪映,这是剪映的付费功能。 打开你的抖音,发布这个包含声音的视频,然后选择剪辑,再选文字,就能自动生成带字幕的视频了(还可以进行修改),然后保存到本地。


--【贰】--:

好的 我先用大模型的方案试试 实在不行的话 再下载达芬奇软件 谢谢佬


--【叁】--:

剪映,选中视频轨道,右键-》识别字幕(识别成功率98%,只有部分同音字会识别错误,手动修改下就行)


--【肆】--:

使用微信的秒剪,它有个功能就叫自动识别字幕


--【伍】--:

好的 谢谢佬 我去试试通义听悟、以及WhisperX的效果

电脑不太想下载软件 想直接让Claude code调API完成 这样省事一些


--【陆】--:

邪修

  1. 就是把音频传给 通义听悟 然后就能直接生成带时间戳的 字幕了
  2. 剪映

或者用 WhisperX


--【柒】--:

果然很简单 只不过我手机里没有安装抖音 电脑也没有下载过剪影 先看看纯大模型能不能搞定吧

不行的话 我去下载个抖音 看看效果 谢谢佬了


--【捌】--:

好的 gemini-2.5-flash可以的话 那我可以先试试gemini-3.1的模型


--【玖】--:

我记得有一个开源库是可以在视频中添加字幕的


--【拾】--:

站内没有找到相关的技术贴,特来求教,谢谢大家。


--【拾壹】--: zapp:

Whisper

试试 WhisperX


或者把视频上传到到 B站 / YT 去生成字幕 ,再去把字幕抓下来?


--【拾贰】--:

好的佬 剪映是我的备选 我先试试大模型 大模型高搞不定 就用剪映了


--【拾叁】--:

直接用达芬奇,里面有内置的模型,可以识别音频,直接加在视频上,你再稍微修改一下错别字就行了


--【拾肆】--:

gemini-2.5-flash 识别音频,生成字幕,然后 ffmpeg 插入,效果还可以

问题描述:

请问各位佬,我做了一个PPT,然后每页PPT都有对应的讲课稿的音频。音频使用minmax clone的声音生成的。然后用ffmpeg生成视频。

我想给视频加上字幕,用Whisper识别音频,生成对应视频的字幕文件,但是这个方法问题在于字幕和视频播放的声音不同步,时间差特别大。

想请教各位佬,有没有比较好用的给视频配上同步音频字幕的方法,谢谢。

网友解答:
--【壹】--:

教你个最简单的方法,不要用剪映,这是剪映的付费功能。 打开你的抖音,发布这个包含声音的视频,然后选择剪辑,再选文字,就能自动生成带字幕的视频了(还可以进行修改),然后保存到本地。


--【贰】--:

好的 我先用大模型的方案试试 实在不行的话 再下载达芬奇软件 谢谢佬


--【叁】--:

剪映,选中视频轨道,右键-》识别字幕(识别成功率98%,只有部分同音字会识别错误,手动修改下就行)


--【肆】--:

使用微信的秒剪,它有个功能就叫自动识别字幕


--【伍】--:

好的 谢谢佬 我去试试通义听悟、以及WhisperX的效果

电脑不太想下载软件 想直接让Claude code调API完成 这样省事一些


--【陆】--:

邪修

  1. 就是把音频传给 通义听悟 然后就能直接生成带时间戳的 字幕了
  2. 剪映

或者用 WhisperX


--【柒】--:

果然很简单 只不过我手机里没有安装抖音 电脑也没有下载过剪影 先看看纯大模型能不能搞定吧

不行的话 我去下载个抖音 看看效果 谢谢佬了


--【捌】--:

好的 gemini-2.5-flash可以的话 那我可以先试试gemini-3.1的模型


--【玖】--:

我记得有一个开源库是可以在视频中添加字幕的


--【拾】--:

站内没有找到相关的技术贴,特来求教,谢谢大家。


--【拾壹】--: zapp:

Whisper

试试 WhisperX


或者把视频上传到到 B站 / YT 去生成字幕 ,再去把字幕抓下来?


--【拾贰】--:

好的佬 剪映是我的备选 我先试试大模型 大模型高搞不定 就用剪映了


--【拾叁】--:

直接用达芬奇,里面有内置的模型,可以识别音频,直接加在视频上,你再稍微修改一下错别字就行了


--【拾肆】--:

gemini-2.5-flash 识别音频,生成字幕,然后 ffmpeg 插入,效果还可以