【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.
前言: 【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕(支持 Soniox/火山引擎,导出 TXT/SRT)
上次发了 1.011,这几个月一直在迭代。
到现在2.0.1 ,基本上是重写了。也更新了很多额外我认为比较必要的功能
为啥做这个
起点还是那个痛点:看视频/直播/课程,平台不让导出字幕。
但 1.0 解决完「能转录」之后,我发现下一个卡点是: 转录完了,怎么用?
每次都要手动复制文本,切到 AI对话窗口,粘贴,问问题。太割裂了。
2.0 的核心思路:捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用,全在一个地方,拒绝数据孤岛
image1920×925 235 KB
2.0 的核心变化
① 跨平台了
Windows (稳定版)
macOS (测试版) / Linux (测试版)
小声bb
欢迎佬反馈bug
② 6 个 ASR 后端
| 后端 | 特点 |
|---|---|
| Soniox | 流式顶尖,支持翻译+说话人识别 |
| 火山引擎 | 中文最强,延迟低,送 20h |
| Groq | Whisper 便宜免费 |
| SiliconFlow | 国内多模态,佬们手上也有资源 |
| 本地 whisper.cpp | 完全离线,零费用 |
| OpenAI-compatible | 接 Ollama、OpenAI兼容 等服务 |
image502×638 36.8 KB
③ AI 回顾 复盘 工作台
转录完直接在软件里处理,不需要离开这个窗口:
Overview:AI 自动生成摘要、行动项、关键词、章节
image1200×800 145 KB
Chat:多线程 AI 问答,Markdown 渲染
image1200×800 86 KB
Mind Map:一键生成思维导图,实时编辑,导出 SVG/PNG
image1200×800 48.9 KB
④ 悬浮字幕升级
字幕部分演示
支持原文、译文、双语三种模式(针对 soniox provider),字体/颜色/阴影/背景全部可自定义
image749×446 21.4 KB
image732×1188 37.8 KB
image680×117 12.8 KB
⑤ S3、WebDAV 备份
备份部分截图
亚马逊 S3 兼容,坚果云、Nextcloud、Alist 都支持,数据不丢
image717×583 17 KB
image735×577 20.6 KB
这次最想说的:MCP + Agent Skill
这是 2.0 里最独特的部分
1. MCP Server
image790×437 21.2 KB
DeLive 内置了一个 MCP Server,可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后,你可以直接问 AI :
“把今天下午的讲座转录内容,提炼成提纲”
“这段转录稿里,最终决定用哪个方案?整个框架思路是什么?”
如图
image1182×1060 73.1 KB
Agent 会直接调用 DeLive 的工具( search_transcripts / get_session / get_session_summary ),从本地拉取数据,完全不需要手动操作。
2. Agent Skill
安装Skill到claude code
DeLive/skills at main · XimilalaXiang/DeLive
main/skills
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...
内置 SKILL.md ,给 Claude Code / Cursor 等 Agent 读,让它们知道怎么和 DeLive 配合工作
Agent Skill
image959×263 29.1 KB
image1021×541 19.7 KB
项目信息
- GitHub: github.com/XimilalaXiang/DeLive
- 文档: docs.delive.me
- 落地页: delive.me
觉得有用的佬可以点个 star ,有问题欢迎沟通~
网友解答:--【壹】--:
cool!我一直在找终于找到了,已star
--【贰】--:
嘿嘿,感谢佬友的支持!对佬们有帮助就好~
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.
前言: 【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕(支持 Soniox/火山引擎,导出 TXT/SRT)
上次发了 1.011,这几个月一直在迭代。
到现在2.0.1 ,基本上是重写了。也更新了很多额外我认为比较必要的功能
为啥做这个
起点还是那个痛点:看视频/直播/课程,平台不让导出字幕。
但 1.0 解决完「能转录」之后,我发现下一个卡点是: 转录完了,怎么用?
每次都要手动复制文本,切到 AI对话窗口,粘贴,问问题。太割裂了。
2.0 的核心思路:捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用,全在一个地方,拒绝数据孤岛
image1920×925 235 KB
2.0 的核心变化
① 跨平台了
Windows (稳定版)
macOS (测试版) / Linux (测试版)
小声bb
欢迎佬反馈bug
② 6 个 ASR 后端
| 后端 | 特点 |
|---|---|
| Soniox | 流式顶尖,支持翻译+说话人识别 |
| 火山引擎 | 中文最强,延迟低,送 20h |
| Groq | Whisper 便宜免费 |
| SiliconFlow | 国内多模态,佬们手上也有资源 |
| 本地 whisper.cpp | 完全离线,零费用 |
| OpenAI-compatible | 接 Ollama、OpenAI兼容 等服务 |
image502×638 36.8 KB
③ AI 回顾 复盘 工作台
转录完直接在软件里处理,不需要离开这个窗口:
Overview:AI 自动生成摘要、行动项、关键词、章节
image1200×800 145 KB
Chat:多线程 AI 问答,Markdown 渲染
image1200×800 86 KB
Mind Map:一键生成思维导图,实时编辑,导出 SVG/PNG
image1200×800 48.9 KB
④ 悬浮字幕升级
字幕部分演示
支持原文、译文、双语三种模式(针对 soniox provider),字体/颜色/阴影/背景全部可自定义
image749×446 21.4 KB
image732×1188 37.8 KB
image680×117 12.8 KB
⑤ S3、WebDAV 备份
备份部分截图
亚马逊 S3 兼容,坚果云、Nextcloud、Alist 都支持,数据不丢
image717×583 17 KB
image735×577 20.6 KB
这次最想说的:MCP + Agent Skill
这是 2.0 里最独特的部分
1. MCP Server
image790×437 21.2 KB
DeLive 内置了一个 MCP Server,可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后,你可以直接问 AI :
“把今天下午的讲座转录内容,提炼成提纲”
“这段转录稿里,最终决定用哪个方案?整个框架思路是什么?”
如图
image1182×1060 73.1 KB
Agent 会直接调用 DeLive 的工具( search_transcripts / get_session / get_session_summary ),从本地拉取数据,完全不需要手动操作。
2. Agent Skill
安装Skill到claude code
DeLive/skills at main · XimilalaXiang/DeLive
main/skills
System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...
内置 SKILL.md ,给 Claude Code / Cursor 等 Agent 读,让它们知道怎么和 DeLive 配合工作
Agent Skill
image959×263 29.1 KB
image1021×541 19.7 KB
项目信息
- GitHub: github.com/XimilalaXiang/DeLive
- 文档: docs.delive.me
- 落地页: delive.me
觉得有用的佬可以点个 star ,有问题欢迎沟通~
网友解答:--【壹】--:
cool!我一直在找终于找到了,已star
--【贰】--:
嘿嘿,感谢佬友的支持!对佬们有帮助就好~

