开源:MinerU → RAG 数据集转换工具

2026-04-11 08:170阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:

  1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
  2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。

因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。

阅读全文
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:

  1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
  2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。

因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。

阅读全文