爱泼斯坦案-OCR结果(含视频描述)｜本地大模型跑了一个月，电费换数据，欢迎Star

2026-04-11 10:570阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

这个仓库里的内容，是爱泼斯坦案文件在Archive8上被删改两次之前，就抓下来的原始版本，用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的，能跑的我都跑了，跑不动的也标了状态。整整一个月，显卡没停，电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。

github.com

GitHub - LovenSar/Epstein_case_leaked_OCR_results

通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。

含有视频帧文字描述，例如：
image1920×567 184 KB

爱泼斯坦案文件公开后，网上流传的版本其实经历了好几次变化：

第一版：原始泄露，内容最全，但格式乱、坏文件多
第二版：Archive8整理后，部分PDF损坏、视频链接失效
第三版：再次清洗，有些内容被移除或脱敏

我这个仓库的数据，抓的是第一版 ，也就是删改前的原始状态。这意味着：

可能包含后续版本中被移除的页、元数据、文件头信息
原始OCR结果未经二次过滤，适合做「版本对比」「信息溯源」研究
所有处理流程本地完成，无云端上传，数据链路可审计

当然，坏文件也确实多：PDF打不开的、视频帧抽不出来的，我都尽量在日志里标了状态，不假装完美，但保证透明。

阅读全文

标签：纯水

问题描述：

github.com

GitHub - LovenSar/Epstein_case_leaked_OCR_results

通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。

含有视频帧文字描述，例如：
image1920×567 184 KB

爱泼斯坦案文件公开后，网上流传的版本其实经历了好几次变化：

第一版：原始泄露，内容最全，但格式乱、坏文件多
第二版：Archive8整理后，部分PDF损坏、视频链接失效
第三版：再次清洗，有些内容被移除或脱敏

我这个仓库的数据，抓的是第一版 ，也就是删改前的原始状态。这意味着：

可能包含后续版本中被移除的页、元数据、文件头信息
原始OCR结果未经二次过滤，适合做「版本对比」「信息溯源」研究
所有处理流程本地完成，无云端上传，数据链路可审计

当然，坏文件也确实多：PDF打不开的、视频帧抽不出来的，我都尽量在日志里标了状态，不假装完美，但保证透明。

阅读全文

标签：纯水

GitHub - LovenSar/Epstein_case_leaked_OCR_results

相关推荐

GitHub - LovenSar/Epstein_case_leaked_OCR_results

相关推荐