开源:MinerU → RAG 数据集转换工具
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:
- 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
- MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。
因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。
Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。
--【壹】--:
minerU解析效果很好,但也确实存在楼主说得这些问题,我每次都得在代码里面去处理minerU生成的那标记和符号,让我来测一下这个skill能不能处理这些标记和符号
--【贰】--:
我是安装的 MinerU 的 Windows 桌面客户端,这样有个可视化界面也好搞一些。
MinerU 官方也给出了 API 可以调用。
--【叁】--:
看起来不错,我之前MinerU处理论文pdf等,有些地方处理的不好,以后可以试一下这个
--【肆】--: frondesce:
MinerU 生成的各类文件
MinerU 生成的各类文件,那还要额外安装MinerU 吗,还是这个技能自带MinerU的安装呀
--【伍】--:
思路挺好的,有时间试验一下,感谢大佬的分享
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:
- 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
- MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。
因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。
Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。
--【壹】--:
minerU解析效果很好,但也确实存在楼主说得这些问题,我每次都得在代码里面去处理minerU生成的那标记和符号,让我来测一下这个skill能不能处理这些标记和符号
--【贰】--:
我是安装的 MinerU 的 Windows 桌面客户端,这样有个可视化界面也好搞一些。
MinerU 官方也给出了 API 可以调用。
--【叁】--:
看起来不错,我之前MinerU处理论文pdf等,有些地方处理的不好,以后可以试一下这个
--【肆】--: frondesce:
MinerU 生成的各类文件
MinerU 生成的各类文件,那还要额外安装MinerU 吗,还是这个技能自带MinerU的安装呀
--【伍】--:
思路挺好的,有时间试验一下,感谢大佬的分享

