【资源更新】爱泼斯坦案-770小时OCR更新(含视频描述)|Qwen3.5

2026-04-11 10:560阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

继上个帖子之后,过去了770个小时之后。

爱泼斯坦案-OCR结果(含视频描述)|本地大模型跑了一个月,电费换数据,欢迎Star 资源荟萃
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。 含有视频帧文字描述,例如: [image] 爱泼斯坦案文件公开…

eee006de13e8e2ac058104ce7217a2b91920×286 109 KB

51e7b7806cdb1d5336e42ce9033f162e1000×319 71.3 KB

主要模型从qwen3-vl:8b换为qwen3.5:9b,以前只出一个txt文件。
现在会出两个,新版本文件名带_2
喜欢建立知识图谱的佬友们可以玩一玩,看看两次数据集方面的质量是否有所升级?

目前我这边简单的初步量化方面:
全量11,924对文件中,平均词数/文件从3392.81提升到3404.57(+0.35%);中位词数/文件从388提升到459(+18.30%)。
EFTAID覆盖率从95.33%提升到100.00%(即未命中比例从4.67%降到0%)。
重复行占比从0.0916降至0.0713(约9.16%->7.13%,下降2.03个百分点,约-22.11%相对降幅)。
此外,报告口径下的实体关键词命中均值为2.44->4.06(约+66.39%)。

阅读全文
问题描述:

继上个帖子之后,过去了770个小时之后。

爱泼斯坦案-OCR结果(含视频描述)|本地大模型跑了一个月,电费换数据,欢迎Star 资源荟萃
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。 含有视频帧文字描述,例如: [image] 爱泼斯坦案文件公开…

eee006de13e8e2ac058104ce7217a2b91920×286 109 KB

51e7b7806cdb1d5336e42ce9033f162e1000×319 71.3 KB

主要模型从qwen3-vl:8b换为qwen3.5:9b,以前只出一个txt文件。
现在会出两个,新版本文件名带_2
喜欢建立知识图谱的佬友们可以玩一玩,看看两次数据集方面的质量是否有所升级?

目前我这边简单的初步量化方面:
全量11,924对文件中,平均词数/文件从3392.81提升到3404.57(+0.35%);中位词数/文件从388提升到459(+18.30%)。
EFTAID覆盖率从95.33%提升到100.00%(即未命中比例从4.67%降到0%)。
重复行占比从0.0916降至0.0713(约9.16%->7.13%,下降2.03个百分点,约-22.11%相对降幅)。
此外,报告口径下的实体关键词命中均值为2.44->4.06(约+66.39%)。

阅读全文