想把公司内部的一些文档整理做一个MCP,佬们有类似的经验吗?

2026-04-11 12:250阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

如题,公司内部使用的是Confluence,想把内部的文档做成MCP给Agent调用。我初步尝试是使用Confluence的MCP来收集文档,做成数据库。但是途中遇到了些困难,不知道有没有大佬能指点一二,有偿(一杯奶茶,不算多但想回馈帮助的佬友,有一个算一个)

  1. 部分文档比较散落,感觉还得人工手动整理出一份map做文档来源
  2. 有两处集中文档,但是用api获取的wiki文档内容又有图有文,部分文档内容信噪比也参差不齐,不太好整理
  3. 怎么把这些文档做成数据库比较好?问过AI说做向量数据库,但总觉得不太靠谱
  4. 有现成成熟的做法吗?
网友解答:
--【壹】--:

从RAG的方向去做,找能提供api的自部署RAG,然后内部材料清洗后放RAG中,按照不同的文件类型选择不同的集合与切分方式。


--【贰】--:

mark一下,参考一下大佬们的建议


--【叁】--:

这种文档库不应该优先用RAG吗


--【肆】--:

好的佬,我去试试


--【伍】--:

实现数据库然后走MCP算RAG吗


--【陆】--:

之前试过dify的知识库,召回还算精准。也试过zotero-mcp,但是有的文献fulltext不完整,pdf还得写个脚本解析一下

问题描述:

如题,公司内部使用的是Confluence,想把内部的文档做成MCP给Agent调用。我初步尝试是使用Confluence的MCP来收集文档,做成数据库。但是途中遇到了些困难,不知道有没有大佬能指点一二,有偿(一杯奶茶,不算多但想回馈帮助的佬友,有一个算一个)

  1. 部分文档比较散落,感觉还得人工手动整理出一份map做文档来源
  2. 有两处集中文档,但是用api获取的wiki文档内容又有图有文,部分文档内容信噪比也参差不齐,不太好整理
  3. 怎么把这些文档做成数据库比较好?问过AI说做向量数据库,但总觉得不太靠谱
  4. 有现成成熟的做法吗?
网友解答:
--【壹】--:

从RAG的方向去做,找能提供api的自部署RAG,然后内部材料清洗后放RAG中,按照不同的文件类型选择不同的集合与切分方式。


--【贰】--:

mark一下,参考一下大佬们的建议


--【叁】--:

这种文档库不应该优先用RAG吗


--【肆】--:

好的佬,我去试试


--【伍】--:

实现数据库然后走MCP算RAG吗


--【陆】--:

之前试过dify的知识库,召回还算精准。也试过zotero-mcp,但是有的文献fulltext不完整,pdf还得写个脚本解析一下