做自己的历史资料知识库有什么好办法吗？上亿字的那种

2026-04-11 14:271阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

做自己的历史资料知识库有什么好办法吗？上亿字的那种
RAG是个好选择么？？？佬友有什么建议？

网友解答：

--【壹】--：

你可以用百度的那个paddle 针对不同的需求，可以用不同的模型。然后，古籍的话，你要成本低，就用千问的效果最好的肯定是Gemini 3F其实就够用了，其他的公式我这儿没有，没有涉及到，所以我不太知道。我就知道这个中英日文

--【贰】--：

自己OCR了海量的资料。。。。

--【叁】--：

能请教下佬用的什么工具完成的OCR吗？传统工具很难处理这么大量的文本，是用大模型吗？佬感觉哪个模型比较好？我也在探索处理传统书籍的OCR和整理，目前还没找到比较好的方法，希望能向您请教

--【肆】--：

为了kPI

--【伍】--：

我感觉自己部署MinerU还可以公式的识别度也挺好的，不能保证百分百对，可以自己部署接API自动化处理速度看显卡性能

--【陆】--：

大佬这是准备开个知识超市吗

--【柒】--：

谢谢佬的解答，我再探索一下！

--【捌】--：

近代的报纸书刊还有书信都OCR文本化了不知道怎么处理

--【玖】--：

我觉得可以看你需求，让ai给你手搓一个

--【拾】--：

您是司马迁吗

--【拾壹】--：

上亿字
蹲蹲办法，想知道怎么处理

--【拾贰】--：

蹲一手，最近也有这种需求

--【拾叁】--：

歪日，佬友该不会是搞到了《永乐大典》吧

--【拾肆】--：

这个好不好用

--【拾伍】--：

https://mem.nowledge.co/zh

--【拾陆】--：

直接买 Notion 商业版会员，一亿字而已不算什么

--【拾柒】--：

刚查了一下，史记也才 526,500 字
顶 200 本史记了，摞起来比司马迁高

--【拾捌】--：

这么多版权语料，能收集起来也是很厉害

--【拾玖】--：

基于Graph RAG构建知识图谱搜索具体可以根据需求选择

标签：快问快答