开源:MinerU → RAG 数据集转换工具

2026-04-11 08:171阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:

  1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
  2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。

因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。

Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。

网友解答:
--【壹】--:

minerU解析效果很好,但也确实存在楼主说得这些问题,我每次都得在代码里面去处理minerU生成的那标记和符号,让我来测一下这个skill能不能处理这些标记和符号


--【贰】--:

我是安装的 MinerU 的 Windows 桌面客户端,这样有个可视化界面也好搞一些。
MinerU 官方也给出了 API 可以调用。


--【叁】--:

看起来不错,我之前MinerU处理论文pdf等,有些地方处理的不好,以后可以试一下这个


--【肆】--: frondesce:

MinerU 生成的各类文件

MinerU 生成的各类文件,那还要额外安装MinerU 吗,还是这个技能自带MinerU的安装呀


--【伍】--:

思路挺好的,有时间试验一下,感谢大佬的分享

问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:

  1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
  2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。

因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。

Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。

网友解答:
--【壹】--:

minerU解析效果很好,但也确实存在楼主说得这些问题,我每次都得在代码里面去处理minerU生成的那标记和符号,让我来测一下这个skill能不能处理这些标记和符号


--【贰】--:

我是安装的 MinerU 的 Windows 桌面客户端,这样有个可视化界面也好搞一些。
MinerU 官方也给出了 API 可以调用。


--【叁】--:

看起来不错,我之前MinerU处理论文pdf等,有些地方处理的不好,以后可以试一下这个


--【肆】--: frondesce:

MinerU 生成的各类文件

MinerU 生成的各类文件,那还要额外安装MinerU 吗,还是这个技能自带MinerU的安装呀


--【伍】--:

思路挺好的,有时间试验一下,感谢大佬的分享