【开源推广】SpineDigest:把长篇内容蒸馏成知识脊柱
- 内容介绍
- 文章标签
- 相关推荐
大家好,最近我们团队又开源了一个新项目,和大家分享一下
我们平时读长篇技术书、学术著作、小说,或者海量文档的时候,最抓狂的痛点就是“怎么才能高效抓住精髓”。直接扔给大模型总结?
- 要么上下文窗口一炸,丢三落四;
- 要么总结得“四平八稳”,但完全没按你的阅读意图来;
- 更别提结构、人物弧光、知识脉络这些“脊柱”级信息,基本全没了……
今天给大家带来的 SpineDigest,就是专门解决这个“蒸馏”痛点的开源工具
我们之前的开源项目: PDF Craft
1776×1012 407 KB
它的能力
SpineDigest 把任意长篇内容(书籍、文档)“蒸馏”成它的脊柱(Spine)——不只是文字总结,还给你章节拓扑 + 知识图谱 + 可复用的结构化档案。
它完全跳出了“简单 prompt 让 LLM 总结”的低效循环,用了一套提示驱动 + 知识图谱 + 对抗式多智能体的流水线,真正做到:
-
按你的意图提取知识单元(Chunk)
你给一个 prompt,它就严格按照你的需求去“抓”关键点。比如你读小说想“保留所有主要和次要角色的情感转变”,它就只抓这个;你读技术书想“重点保留算法推导和性能对比”,它也精准服从。 -
构建知识图谱 + Snake(知识蛇链)
把提取出来的知识块变成节点,自动连边、聚类,形成有序的“知识蛇链”。一眼就能看出全书的逻辑骨架、章节脉络、概念关联——再也不是一坨平铺的文字。 -
对抗式多智能体总结
一个“答辩者”负责写总结,一群“教授”智能体(各持一条 Snake)轮番挑战、挑刺、补漏。几轮迭代后出来的总结,既忠实于原书结构,又高度浓缩,还不会漏掉你关心的部分。真正做到了“结构保留 + 意图对齐”。 -
输出 .sdpub 档案格式
这是我们最得意的功能。一次处理完,所有中间结果(Chunk、图谱、Snake、总结)全部打包进一个 .sdpub 文件。以后想重新导出成 Markdown、EPUB、纯文本……完全不需要再跑 LLM,秒级完成。
而且可以用我们的 Inkora 查看器直接打开,图形化浏览知识图谱和蛇链。
3024×1864 646 KB
支持格式和使用方式
- 输入:EPUB、Markdown、纯文本、.sdpub
- 输出:Markdown、EPUB、纯文本、.sdpub
- 支持 stdin/stdout 管道调用,完美适配 AI Agent 工作流
- Node.js >= 22.12.0,一行命令搞定:
# 全局安装
npm install -g spinedigest
# 最常用:把 EPUB 蒸馏成 Markdown(按你的 prompt)
spinedigest --input ./your-book.epub --output ./digest.md --prompt "保留所有主要和次要角色的情感转变"
# 先打包成 .sdpub,以后随便转格式
spinedigest --input ./your-book.epub --output ./book.sdpub
spinedigest --input ./book.sdpub --output ./book.md
CLI 参数文档里都有详细说明,还提供了 Library API,方便二次开发。
为什么它比直接用大模型强
普通 LLM 总结的本质问题是 “不知道该砍什么”。SpineDigest 用 提示驱动提取 + 图谱聚类 + 对抗审查,直接把决策权交给结构和你的意图。
在我们自己内部测试中,处理 30 万字的技术书,总结质量和结构保留度完胜单次 prompt。
给谁用的?
- 想快速吃透技术书的同学
- 做文献综述、知识管理的研究者
- 写书评、做读书笔记的博主
- 正在构建 Agent 工作流的开发者(CLI 设计天生为 Agent 准备)
- 任何被“信息过载”折磨的人
Inkora 查看器下载地址:https://inkora.oomol.com/download/sdpub
有任何使用问题、想看更多使用案例,或者对 .sdpub 格式有想法的,欢迎在仓库 Issue 区或者这里留言,我们会持续迭代。
网友解答:--【壹】--:
适合那些严谨性强的文档么,比如说规章制度,法律法规之类的?
--【贰】--:
能跑多少字的书?能跑百万字的吗?大概的效果比直接读总结高多少?
--【叁】--:
佬,如果使用的时候因为api问题中断了,有办法恢复吗
--【肆】--: Kevin Cui:
…… 完全不需要再跑 LLM,秒级完成。
而且可以用我们的 Inkora 查看器直接打开,图形化浏览知识图谱和蛇链。
已经star,但是是否后续开发
Kevin Cui:
- 要么上下文窗口一炸,丢三落四;
- 要么总结得 “四平八稳”,但完全没按你的阅读意图来;
- 更别提结构、人物弧光、知识脉络这些 “脊柱” 级信息,基本全没了……
很好,也已经star,想问一下后续是否开发桌面端程序.然后就是是否支持本地模型或者其他主流的ai模型以及ChatGPT的oauth登录这些
--【伍】--:
好东西 我正好需要这个,我先试用一下 看看
--【陆】--:
Inkora 是用来打开 sdpub 的客户端软件。
如果未来 SpineDigest 支持客户端转化,大概率会上我们的云,届时会收费。
如果用开源方案,可以自由配置 LLM,在本地运行不收费。
相关链接:
- spinedigest/docs/zh-CN/cli.md at main · oomol-lab/spinedigest · GitHub
- spinedigest/docs/zh-CN/quickstart.md at main · oomol-lab/spinedigest · GitHub
- spinedigest/docs/zh-CN/library.md at main · oomol-lab/spinedigest · GitHub
--【柒】--:
比直接用大模型强,是个好东西啊。
--【捌】--:
这个怎么比喻和看起来都很像ai的文章(没有恶意)
大家好,最近我们团队又开源了一个新项目,和大家分享一下
我们平时读长篇技术书、学术著作、小说,或者海量文档的时候,最抓狂的痛点就是“怎么才能高效抓住精髓”。直接扔给大模型总结?
- 要么上下文窗口一炸,丢三落四;
- 要么总结得“四平八稳”,但完全没按你的阅读意图来;
- 更别提结构、人物弧光、知识脉络这些“脊柱”级信息,基本全没了……
今天给大家带来的 SpineDigest,就是专门解决这个“蒸馏”痛点的开源工具
我们之前的开源项目: PDF Craft
1776×1012 407 KB
它的能力
SpineDigest 把任意长篇内容(书籍、文档)“蒸馏”成它的脊柱(Spine)——不只是文字总结,还给你章节拓扑 + 知识图谱 + 可复用的结构化档案。
它完全跳出了“简单 prompt 让 LLM 总结”的低效循环,用了一套提示驱动 + 知识图谱 + 对抗式多智能体的流水线,真正做到:
-
按你的意图提取知识单元(Chunk)
你给一个 prompt,它就严格按照你的需求去“抓”关键点。比如你读小说想“保留所有主要和次要角色的情感转变”,它就只抓这个;你读技术书想“重点保留算法推导和性能对比”,它也精准服从。 -
构建知识图谱 + Snake(知识蛇链)
把提取出来的知识块变成节点,自动连边、聚类,形成有序的“知识蛇链”。一眼就能看出全书的逻辑骨架、章节脉络、概念关联——再也不是一坨平铺的文字。 -
对抗式多智能体总结
一个“答辩者”负责写总结,一群“教授”智能体(各持一条 Snake)轮番挑战、挑刺、补漏。几轮迭代后出来的总结,既忠实于原书结构,又高度浓缩,还不会漏掉你关心的部分。真正做到了“结构保留 + 意图对齐”。 -
输出 .sdpub 档案格式
这是我们最得意的功能。一次处理完,所有中间结果(Chunk、图谱、Snake、总结)全部打包进一个 .sdpub 文件。以后想重新导出成 Markdown、EPUB、纯文本……完全不需要再跑 LLM,秒级完成。
而且可以用我们的 Inkora 查看器直接打开,图形化浏览知识图谱和蛇链。
3024×1864 646 KB
支持格式和使用方式
- 输入:EPUB、Markdown、纯文本、.sdpub
- 输出:Markdown、EPUB、纯文本、.sdpub
- 支持 stdin/stdout 管道调用,完美适配 AI Agent 工作流
- Node.js >= 22.12.0,一行命令搞定:
# 全局安装
npm install -g spinedigest
# 最常用:把 EPUB 蒸馏成 Markdown(按你的 prompt)
spinedigest --input ./your-book.epub --output ./digest.md --prompt "保留所有主要和次要角色的情感转变"
# 先打包成 .sdpub,以后随便转格式
spinedigest --input ./your-book.epub --output ./book.sdpub
spinedigest --input ./book.sdpub --output ./book.md
CLI 参数文档里都有详细说明,还提供了 Library API,方便二次开发。
为什么它比直接用大模型强
普通 LLM 总结的本质问题是 “不知道该砍什么”。SpineDigest 用 提示驱动提取 + 图谱聚类 + 对抗审查,直接把决策权交给结构和你的意图。
在我们自己内部测试中,处理 30 万字的技术书,总结质量和结构保留度完胜单次 prompt。
给谁用的?
- 想快速吃透技术书的同学
- 做文献综述、知识管理的研究者
- 写书评、做读书笔记的博主
- 正在构建 Agent 工作流的开发者(CLI 设计天生为 Agent 准备)
- 任何被“信息过载”折磨的人
Inkora 查看器下载地址:https://inkora.oomol.com/download/sdpub
有任何使用问题、想看更多使用案例,或者对 .sdpub 格式有想法的,欢迎在仓库 Issue 区或者这里留言,我们会持续迭代。
网友解答:--【壹】--:
适合那些严谨性强的文档么,比如说规章制度,法律法规之类的?
--【贰】--:
能跑多少字的书?能跑百万字的吗?大概的效果比直接读总结高多少?
--【叁】--:
佬,如果使用的时候因为api问题中断了,有办法恢复吗
--【肆】--: Kevin Cui:
…… 完全不需要再跑 LLM,秒级完成。
而且可以用我们的 Inkora 查看器直接打开,图形化浏览知识图谱和蛇链。
已经star,但是是否后续开发
Kevin Cui:
- 要么上下文窗口一炸,丢三落四;
- 要么总结得 “四平八稳”,但完全没按你的阅读意图来;
- 更别提结构、人物弧光、知识脉络这些 “脊柱” 级信息,基本全没了……
很好,也已经star,想问一下后续是否开发桌面端程序.然后就是是否支持本地模型或者其他主流的ai模型以及ChatGPT的oauth登录这些
--【伍】--:
好东西 我正好需要这个,我先试用一下 看看
--【陆】--:
Inkora 是用来打开 sdpub 的客户端软件。
如果未来 SpineDigest 支持客户端转化,大概率会上我们的云,届时会收费。
如果用开源方案,可以自由配置 LLM,在本地运行不收费。
相关链接:
- spinedigest/docs/zh-CN/cli.md at main · oomol-lab/spinedigest · GitHub
- spinedigest/docs/zh-CN/quickstart.md at main · oomol-lab/spinedigest · GitHub
- spinedigest/docs/zh-CN/library.md at main · oomol-lab/spinedigest · GitHub
--【柒】--:
比直接用大模型强,是个好东西啊。
--【捌】--:
这个怎么比喻和看起来都很像ai的文章(没有恶意)

