【开源自荐】DeLive 2.0 —— 从「字幕转录工具」到「AI 转录工作台」

2026-04-29 08:172阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github.com

GitHub - XimilalaXiang/DeLive: System audio capture + multi-provider ASR +...

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill.



前言: 【开源】1.0.11 Delive 把 Windows 系统音频实时转文字 + 悬浮字幕(支持 Soniox/火山引擎,导出 TXT/SRT)

上次发了 1.011,这几个月一直在迭代。
到现在2.0.1 ,基本上是重写了。也更新了很多额外我认为比较必要的功能

为啥做这个

起点还是那个痛点:看视频/直播/课程,平台不让导出字幕。

但 1.0 解决完「能转录」之后,我发现下一个卡点是: 转录完了,怎么用?

每次都要手动复制文本,切到 AI对话窗口,粘贴,问问题。太割裂了。

2.0 的核心思路:捕获 → 转录 → AI 处理 → 对外开放MCP/Skill 接口调用,全在一个地方,拒绝数据孤岛


image1920×925 235 KB


2.0 的核心变化


① 跨平台了
Windows (稳定版)

macOS (测试版) / Linux (测试版)

小声bb

欢迎佬反馈bug

② 6 个 ASR 后端

后端 特点
Soniox 流式顶尖,支持翻译+说话人识别
火山引擎 中文最强,延迟低,送 20h
Groq Whisper 便宜免费
SiliconFlow 国内多模态,佬们手上也有资源
本地 whisper.cpp 完全离线,零费用
OpenAI-compatible 接 Ollama、OpenAI兼容 等服务

image502×638 36.8 KB


③ AI 回顾 复盘 工作台

转录完直接在软件里处理,不需要离开这个窗口:

Overview:AI 自动生成摘要、行动项、关键词、章节

image1200×800 145 KB

Chat:多线程 AI 问答,Markdown 渲染

image1200×800 86 KB

Mind Map:一键生成思维导图,实时编辑,导出 SVG/PNG

image1200×800 48.9 KB

④ 悬浮字幕升级

字幕部分演示

支持原文、译文、双语三种模式(针对 soniox provider),字体/颜色/阴影/背景全部可自定义

image749×446 21.4 KB
image732×1188 37.8 KB
image680×117 12.8 KB

⑤ S3、WebDAV 备份

备份部分截图

亚马逊 S3 兼容,坚果云、Nextcloud、Alist 都支持,数据不丢

image717×583 17 KB
image735×577 20.6 KB


这次最想说的:MCP + Agent Skill

这是 2.0 里最独特的部分

1. MCP Server

image790×437 21.2 KB

DeLive 内置了一个 MCP Server,可以直接接入 Cherry Studio、Cursor、Claude Code。配置完之后,你可以直接问 AI :

“把今天下午的讲座转录内容,提炼成提纲”
“这段转录稿里,最终决定用哪个方案?整个框架思路是什么?”

如图

image1182×1060 73.1 KB

Agent 会直接调用 DeLive 的工具( search_transcripts / get_session / get_session_summary ),从本地拉取数据,完全不需要手动操作。

2. Agent Skill

安装Skill到claude code

github.com

DeLive/skills at main · XimilalaXiang/DeLive

main/skills

System audio capture + multi-provider ASR + local-first AI review workspace. Floating live captions, 6 ASR backends, 60+ languages, AI summary/chat/mindmap, Open API, MCP server, and Agent Skill. -...

内置 SKILL.md ,给 Claude Code / Cursor 等 Agent 读,让它们知道怎么和 DeLive 配合工作

Agent Skill

image959×263 29.1 KB
image1021×541 19.7 KB

项目信息

  • GitHub: github.com/XimilalaXiang/DeLive
  • 文档: docs.delive.me
  • 落地页: delive.me

觉得有用的佬可以点个 star ,有问题欢迎沟通~

网友解答:
--【壹】--:

cool!我一直在找终于找到了,已star


--【贰】--:

嘿嘿,感谢佬友的支持!对佬们有帮助就好~