做自己的历史资料知识库有什么好办法吗?上亿字的那种
- 内容介绍
- 文章标签
- 相关推荐
做自己的历史资料知识库有什么好办法吗?上亿字的那种
RAG是个好选择么???佬友有什么建议?
--【壹】--:
你可以用百度的那个paddle 针对不同的需求,可以用不同的模型。然后,古籍的话,你要成本低,就用千问的 效果最好的肯定是Gemini 3F其实就够用了, 其他的公式我这儿没有,没有涉及到,所以我不太知道。我就知道这个中英日文
--【贰】--:
自己OCR了海量的资料。。。。
--【叁】--:
能请教下佬用的什么工具完成的OCR吗?传统工具很难处理这么大量的文本,是用大模型吗?佬感觉哪个模型比较好?我也在探索处理传统书籍的OCR和整理,目前还没找到比较好的方法,希望能向您请教
--【肆】--:
为了kPI
--【伍】--:
我感觉自己部署MinerU还可以公式的识别度也挺好的,不能保证百分百对,可以自己部署接API自动化处理速度看显卡性能
--【陆】--:
大佬这是准备开个知识超市吗
--【柒】--:
谢谢佬的解答,我再探索一下!
--【捌】--:
近代的报纸 书刊 还有书信 都OCR文本化了不知道怎么处理
--【玖】--:
我觉得可以看你需求,让ai给你手搓一个
--【拾】--:
您是司马迁吗
--【拾壹】--:
上亿字
蹲蹲办法,想知道怎么处理
--【拾贰】--:
蹲一手,最近也有这种需求
--【拾叁】--:
歪日,佬友该不会是搞到了《永乐大典》吧
--【拾肆】--:
这个好不好用
--【拾伍】--:
- https://mem.nowledge.co/zh
--【拾陆】--:
直接买 Notion 商业版会员,一亿字而已不算什么
--【拾柒】--:
刚查了一下,史记也才 526,500 字
顶 200 本史记了,摞起来比司马迁高
--【拾捌】--:
这么多版权语料,能收集起来也是很厉害
--【拾玖】--:
基于Graph RAG构建知识图谱搜索 具体可以根据需求选择
做自己的历史资料知识库有什么好办法吗?上亿字的那种
RAG是个好选择么???佬友有什么建议?
--【壹】--:
你可以用百度的那个paddle 针对不同的需求,可以用不同的模型。然后,古籍的话,你要成本低,就用千问的 效果最好的肯定是Gemini 3F其实就够用了, 其他的公式我这儿没有,没有涉及到,所以我不太知道。我就知道这个中英日文
--【贰】--:
自己OCR了海量的资料。。。。
--【叁】--:
能请教下佬用的什么工具完成的OCR吗?传统工具很难处理这么大量的文本,是用大模型吗?佬感觉哪个模型比较好?我也在探索处理传统书籍的OCR和整理,目前还没找到比较好的方法,希望能向您请教
--【肆】--:
为了kPI
--【伍】--:
我感觉自己部署MinerU还可以公式的识别度也挺好的,不能保证百分百对,可以自己部署接API自动化处理速度看显卡性能
--【陆】--:
大佬这是准备开个知识超市吗
--【柒】--:
谢谢佬的解答,我再探索一下!
--【捌】--:
近代的报纸 书刊 还有书信 都OCR文本化了不知道怎么处理
--【玖】--:
我觉得可以看你需求,让ai给你手搓一个
--【拾】--:
您是司马迁吗
--【拾壹】--:
上亿字
蹲蹲办法,想知道怎么处理
--【拾贰】--:
蹲一手,最近也有这种需求
--【拾叁】--:
歪日,佬友该不会是搞到了《永乐大典》吧
--【拾肆】--:
这个好不好用
--【拾伍】--:
- https://mem.nowledge.co/zh
--【拾陆】--:
直接买 Notion 商业版会员,一亿字而已不算什么
--【拾柒】--:
刚查了一下,史记也才 526,500 字
顶 200 本史记了,摞起来比司马迁高
--【拾捌】--:
这么多版权语料,能收集起来也是很厉害
--【拾玖】--:
基于Graph RAG构建知识图谱搜索 具体可以根据需求选择

