爱泼斯坦案-OCR结果(含视频描述)|本地大模型跑了一个月,电费换数据,欢迎Star
- 内容介绍
- 文章标签
- 相关推荐
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。
GitHub - LovenSar/Epstein_case_leaked_OCR_results
通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。
含有视频帧文字描述,例如:
image1920×567 184 KB
爱泼斯坦案文件公开后,网上流传的版本其实经历了好几次变化:
- 第一版:原始泄露,内容最全,但格式乱、坏文件多
- 第二版:Archive8整理后,部分PDF损坏、视频链接失效
- 第三版:再次清洗,有些内容被移除或脱敏
我这个仓库的数据,抓的是第一版 ,也就是删改前的原始状态。这意味着:
- 可能包含后续版本中被移除的页、元数据、文件头信息
- 原始OCR结果未经二次过滤,适合做「版本对比」「信息溯源」研究
- 所有处理流程本地完成,无云端上传,数据链路可审计
当然,坏文件也确实多:PDF打不开的、视频帧抽不出来的,我都尽量在日志里标了状态,不假装完美,但保证透明。
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。
GitHub - LovenSar/Epstein_case_leaked_OCR_results
通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。
含有视频帧文字描述,例如:
image1920×567 184 KB
爱泼斯坦案文件公开后,网上流传的版本其实经历了好几次变化:
- 第一版:原始泄露,内容最全,但格式乱、坏文件多
- 第二版:Archive8整理后,部分PDF损坏、视频链接失效
- 第三版:再次清洗,有些内容被移除或脱敏
我这个仓库的数据,抓的是第一版 ,也就是删改前的原始状态。这意味着:
- 可能包含后续版本中被移除的页、元数据、文件头信息
- 原始OCR结果未经二次过滤,适合做「版本对比」「信息溯源」研究
- 所有处理流程本地完成,无云端上传,数据链路可审计
当然,坏文件也确实多:PDF打不开的、视频帧抽不出来的,我都尽量在日志里标了状态,不假装完美,但保证透明。

