做自己的历史资料知识库有什么好办法吗?上亿字的那种

2026-04-11 14:271阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

做自己的历史资料知识库有什么好办法吗?上亿字的那种
RAG是个好选择么???佬友有什么建议?

网友解答:
--【壹】--:

你可以用百度的那个paddle 针对不同的需求,可以用不同的模型。然后,古籍的话,你要成本低,就用千问的 效果最好的肯定是Gemini 3F其实就够用了, 其他的公式我这儿没有,没有涉及到,所以我不太知道。我就知道这个中英日文


--【贰】--:

自己OCR了海量的资料。。。。


--【叁】--:

能请教下佬用的什么工具完成的OCR吗?传统工具很难处理这么大量的文本,是用大模型吗?佬感觉哪个模型比较好?我也在探索处理传统书籍的OCR和整理,目前还没找到比较好的方法,希望能向您请教


--【肆】--:

为了kPI


--【伍】--:

我感觉自己部署MinerU还可以公式的识别度也挺好的,不能保证百分百对,可以自己部署接API自动化处理速度看显卡性能


--【陆】--:

大佬这是准备开个知识超市吗


--【柒】--:

谢谢佬的解答,我再探索一下!


--【捌】--:

近代的报纸 书刊 还有书信 都OCR文本化了不知道怎么处理


--【玖】--:

我觉得可以看你需求,让ai给你手搓一个


--【拾】--:

您是司马迁吗


--【拾壹】--:

上亿字
蹲蹲办法,想知道怎么处理


--【拾贰】--:

蹲一手,最近也有这种需求


--【拾叁】--:

歪日,佬友该不会是搞到了《永乐大典》吧


--【拾肆】--:

这个好不好用


--【拾伍】--:
  • https://mem.nowledge.co/zh

--【拾陆】--:

直接买 Notion 商业版会员,一亿字而已不算什么


--【拾柒】--:

刚查了一下,史记也才 526,500 字
顶 200 本史记了,摞起来比司马迁高


--【拾捌】--:

这么多版权语料,能收集起来也是很厉害


--【拾玖】--:

基于Graph RAG构建知识图谱搜索 具体可以根据需求选择

标签:快问快答
问题描述:

做自己的历史资料知识库有什么好办法吗?上亿字的那种
RAG是个好选择么???佬友有什么建议?

网友解答:
--【壹】--:

你可以用百度的那个paddle 针对不同的需求,可以用不同的模型。然后,古籍的话,你要成本低,就用千问的 效果最好的肯定是Gemini 3F其实就够用了, 其他的公式我这儿没有,没有涉及到,所以我不太知道。我就知道这个中英日文


--【贰】--:

自己OCR了海量的资料。。。。


--【叁】--:

能请教下佬用的什么工具完成的OCR吗?传统工具很难处理这么大量的文本,是用大模型吗?佬感觉哪个模型比较好?我也在探索处理传统书籍的OCR和整理,目前还没找到比较好的方法,希望能向您请教


--【肆】--:

为了kPI


--【伍】--:

我感觉自己部署MinerU还可以公式的识别度也挺好的,不能保证百分百对,可以自己部署接API自动化处理速度看显卡性能


--【陆】--:

大佬这是准备开个知识超市吗


--【柒】--:

谢谢佬的解答,我再探索一下!


--【捌】--:

近代的报纸 书刊 还有书信 都OCR文本化了不知道怎么处理


--【玖】--:

我觉得可以看你需求,让ai给你手搓一个


--【拾】--:

您是司马迁吗


--【拾壹】--:

上亿字
蹲蹲办法,想知道怎么处理


--【拾贰】--:

蹲一手,最近也有这种需求


--【拾叁】--:

歪日,佬友该不会是搞到了《永乐大典》吧


--【拾肆】--:

这个好不好用


--【拾伍】--:
  • https://mem.nowledge.co/zh

--【拾陆】--:

直接买 Notion 商业版会员,一亿字而已不算什么


--【拾柒】--:

刚查了一下,史记也才 526,500 字
顶 200 本史记了,摞起来比司马迁高


--【拾捌】--:

这么多版权语料,能收集起来也是很厉害


--【拾玖】--:

基于Graph RAG构建知识图谱搜索 具体可以根据需求选择

标签:快问快答