爱泼斯坦案-OCR结果(含视频描述)｜本地大模型跑了一个月，电费换数据，欢迎Star

2026-04-11 10:571阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

这个仓库里的内容，是爱泼斯坦案文件在Archive8上被删改两次之前，就抓下来的原始版本，用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的，能跑的我都跑了，跑不动的也标了状态。整整一个月，显卡没停，电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。

github.com

GitHub - LovenSar/Epstein_case_leaked_OCR_results

通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。

含有视频帧文字描述，例如：
image1920×567 184 KB

爱泼斯坦案文件公开后，网上流传的版本其实经历了好几次变化：

第一版：原始泄露，内容最全，但格式乱、坏文件多
第二版：Archive8整理后，部分PDF损坏、视频链接失效
第三版：再次清洗，有些内容被移除或脱敏

我这个仓库的数据，抓的是第一版 ，也就是删改前的原始状态。这意味着：

可能包含后续版本中被移除的页、元数据、文件头信息
原始OCR结果未经二次过滤，适合做「版本对比」「信息溯源」研究
所有处理流程本地完成，无云端上传，数据链路可审计

当然，坏文件也确实多：PDF打不开的、视频帧抽不出来的，我都尽量在日志里标了状态，不假装完美，但保证透明。
image1342×511 23.4 KB
image1310×872 126 KB

默认全链路用 qwen3-vl:8b-instruct-q8_0 （通义千问多模态量化版），但不同环节可配不同模型 ——OCR、描述、润色都能单独换，改脚本里 DEFAULT_MODELS 字典就行，一行配置，灵活替换。

路由两步走：
① 先qwen3-vl:8b程序预判：看图片白边多不多、颜色均不均匀，快速猜是「文档」还是「图片」；
② 不确定的，再让模型投票3次 （--router-votes 3 ），少数服从多数，决定走OCR路线还是视觉描述路线。

有交叉验证：

纯文字页：双模型并行OCR （GLM路线 + Qwen路线），结果合并，漏的字互相补；
含图/手写页：双模型分别描述 （Qwen + Gemma），再单独检测有没有文字，有就补一轮OCR；
最后统一由 Refiner 模型做格式对齐+疑点标注，不删原始内容，只加结构 。

网上也有其他佬的工作https://epstein-docs.github.io/

诚实说 ：

不是所有OCR结果都100%准确，尤其是手写体、模糊截图、低码率视频帧
模型是qwen3-vl:8b-instruct-q8_0，你要是想换llama3-vision、minicpm-v，改DEFAULT_MODELS 就行
输出是纯文本，方便你后续接RAG、做检索、训练小模型，但「语义理解」还得靠你二次加工

这个仓库仅限研究、审计、技术分析用途。请遵守法律法规，尊重隐私，别拿去做人肉、造谣、传播未脱敏内容。我们折腾技术，是为了让信息更透明、知识更易得，而不是伤害任何人。

网友解答：

--【壹】--：

楼主注意人身安全啊，普通人搞这些还是太危险了。

--【贰】--：

佬太强了！

--【叁】--：

w 太伟大了喵~

~~w 放github上会不哪天消失了喵~(逃~~

--【肆】--：

然后再写一个中文文档

--【伍】--：

这不得在码云等平台来个备份。

--【陆】--：

太强了佬

--【柒】--：

这这是我能看的吗？

--【捌】--：

都有啥啊，，，好奇

--【玖】--：

前排支持壮举

--【拾】--：

好家伙，抽时间看看！

--【拾壹】--：

这个真得支持

--【拾贰】--：

伟大的实践！

--【拾叁】--：

大佬太伟大了

--【拾肆】--：

你可能让l站出圈吧震惊

--【拾伍】--：

支持！

--【拾陆】--：

窝趣什么

--【拾柒】--：

哇靠这个是真的太强了！

--【拾捌】--：

前排支持，多平台备份一下？

--【拾玖】--：

这下震惊了

标签：纯水

问题描述：

github.com

GitHub - LovenSar/Epstein_case_leaked_OCR_results

通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。

含有视频帧文字描述，例如：
image1920×567 184 KB

爱泼斯坦案文件公开后，网上流传的版本其实经历了好几次变化：

第一版：原始泄露，内容最全，但格式乱、坏文件多
第二版：Archive8整理后，部分PDF损坏、视频链接失效
第三版：再次清洗，有些内容被移除或脱敏

我这个仓库的数据，抓的是第一版 ，也就是删改前的原始状态。这意味着：

可能包含后续版本中被移除的页、元数据、文件头信息
原始OCR结果未经二次过滤，适合做「版本对比」「信息溯源」研究
所有处理流程本地完成，无云端上传，数据链路可审计

当然，坏文件也确实多：PDF打不开的、视频帧抽不出来的，我都尽量在日志里标了状态，不假装完美，但保证透明。
image1342×511 23.4 KB
image1310×872 126 KB

有交叉验证：

纯文字页：双模型并行OCR （GLM路线 + Qwen路线），结果合并，漏的字互相补；
含图/手写页：双模型分别描述 （Qwen + Gemma），再单独检测有没有文字，有就补一轮OCR；
最后统一由 Refiner 模型做格式对齐+疑点标注，不删原始内容，只加结构 。

网上也有其他佬的工作https://epstein-docs.github.io/

诚实说 ：

不是所有OCR结果都100%准确，尤其是手写体、模糊截图、低码率视频帧
模型是qwen3-vl:8b-instruct-q8_0，你要是想换llama3-vision、minicpm-v，改DEFAULT_MODELS 就行
输出是纯文本，方便你后续接RAG、做检索、训练小模型，但「语义理解」还得靠你二次加工

网友解答：

--【壹】--：

楼主注意人身安全啊，普通人搞这些还是太危险了。

--【贰】--：

佬太强了！

--【叁】--：

w 太伟大了喵~

~~w 放github上会不哪天消失了喵~(逃~~

--【肆】--：

然后再写一个中文文档

--【伍】--：

这不得在码云等平台来个备份。

--【陆】--：

太强了佬

--【柒】--：

这这是我能看的吗？

--【捌】--：

都有啥啊，，，好奇

--【玖】--：

前排支持壮举

--【拾】--：

好家伙，抽时间看看！

--【拾壹】--：

这个真得支持

--【拾贰】--：

伟大的实践！

--【拾叁】--：

大佬太伟大了

--【拾肆】--：

你可能让l站出圈吧震惊

--【拾伍】--：

支持！

--【拾陆】--：

窝趣什么

--【拾柒】--：

哇靠这个是真的太强了！

--【拾捌】--：

前排支持，多平台备份一下？

--【拾玖】--：

这下震惊了

标签：纯水

GitHub - LovenSar/Epstein_case_leaked_OCR_results

相关推荐

GitHub - LovenSar/Epstein_case_leaked_OCR_results

相关推荐