爱泼斯坦案-OCR结果(含视频描述)|本地大模型跑了一个月,电费换数据,欢迎Star
- 内容介绍
- 文章标签
- 相关推荐
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。
GitHub - LovenSar/Epstein_case_leaked_OCR_results
通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。
含有视频帧文字描述,例如:
image1920×567 184 KB
爱泼斯坦案文件公开后,网上流传的版本其实经历了好几次变化:
- 第一版:原始泄露,内容最全,但格式乱、坏文件多
- 第二版:Archive8整理后,部分PDF损坏、视频链接失效
- 第三版:再次清洗,有些内容被移除或脱敏
我这个仓库的数据,抓的是第一版 ,也就是删改前的原始状态。这意味着:
- 可能包含后续版本中被移除的页、元数据、文件头信息
- 原始OCR结果未经二次过滤,适合做「版本对比」「信息溯源」研究
- 所有处理流程本地完成,无云端上传,数据链路可审计
当然,坏文件也确实多:PDF打不开的、视频帧抽不出来的,我都尽量在日志里标了状态,不假装完美,但保证透明。
image1342×511 23.4 KB
image1310×872 126 KB
默认全链路用 qwen3-vl:8b-instruct-q8_0 (通义千问多模态量化版),但不同环节可配不同模型 ——OCR、描述、润色都能单独换,改脚本里 DEFAULT_MODELS 字典就行,一行配置,灵活替换。
路由两步走:
① 先qwen3-vl:8b程序预判 :看图片白边多不多、颜色均不均匀,快速猜是「文档」还是「图片」;
② 不确定的,再让模型投票3次 (--router-votes 3 ),少数服从多数,决定走OCR路线还是视觉描述路线。
有交叉验证:
- 纯文字页:双模型并行OCR (GLM路线 + Qwen路线),结果合并,漏的字互相补;
- 含图/手写页:双模型分别描述 (Qwen + Gemma),再单独检测有没有文字,有就补一轮OCR;
- 最后统一由 Refiner 模型做格式对齐+疑点标注,不删原始内容,只加结构 。
网上也有其他佬的工作https://epstein-docs.github.io/
诚实说 :
- 不是所有OCR结果都100%准确,尤其是手写体、模糊截图、低码率视频帧
- 模型是qwen3-vl:8b-instruct-q8_0,你要是想换llama3-vision、minicpm-v,改
DEFAULT_MODELS就行 - 输出是纯文本,方便你后续接RAG、做检索、训练小模型,但「语义理解」还得靠你二次加工
这个仓库仅限研究、审计、技术分析用途。请遵守法律法规,尊重隐私,别拿去做人肉、造谣、传播未脱敏内容。我们折腾技术,是为了让信息更透明、知识更易得,而不是伤害任何人。
网友解答:--【壹】--:
楼主注意人身安全啊,普通人搞这些还是太危险了。
--【贰】--:
佬太强了!
--【叁】--:
w 太伟大了喵~
w 放github上会不哪天消失了喵~(逃
--【肆】--:
然后再写一个中文文档
--【伍】--:
这不得在码云等平台来个备份。
--【陆】--:
太强了佬
--【柒】--:
这这是我能看的吗?
--【捌】--:
都有啥啊,,,好奇
--【玖】--:
前排支持壮举
--【拾】--:
好家伙,抽时间看看!
--【拾壹】--:
这个真得支持
--【拾贰】--:
伟大的实践!
--【拾叁】--:
大佬太伟大了
--【拾肆】--:
你可能让l站出圈吧 震惊
--【拾伍】--:
支持!
--【拾陆】--:
窝趣什么
--【拾柒】--:
哇靠这个是真的太强了!
--【拾捌】--:
前排支持,多平台备份一下?
--【拾玖】--:
这下震惊了
这个仓库里的内容,是爱泼斯坦案文件在Archive8上被删改两次之前,就抓下来的原始版本,用本地大模型批量OCR识别后的文字结果。PDF有坏的、视频有损的,能跑的我都跑了,跑不动的也标了状态。整整一个月,显卡没停,电表转得比我心跳还快。欢迎对技术、对档案、对「信息如何被保存」感兴趣的朋友来Star、提Issue、一起折腾。
GitHub - LovenSar/Epstein_case_leaked_OCR_results
通过在 GitHub 上创建帐户来为 LovenSar/Epstein_case_leaked_OCR_results 开发做出贡献。
含有视频帧文字描述,例如:
image1920×567 184 KB
爱泼斯坦案文件公开后,网上流传的版本其实经历了好几次变化:
- 第一版:原始泄露,内容最全,但格式乱、坏文件多
- 第二版:Archive8整理后,部分PDF损坏、视频链接失效
- 第三版:再次清洗,有些内容被移除或脱敏
我这个仓库的数据,抓的是第一版 ,也就是删改前的原始状态。这意味着:
- 可能包含后续版本中被移除的页、元数据、文件头信息
- 原始OCR结果未经二次过滤,适合做「版本对比」「信息溯源」研究
- 所有处理流程本地完成,无云端上传,数据链路可审计
当然,坏文件也确实多:PDF打不开的、视频帧抽不出来的,我都尽量在日志里标了状态,不假装完美,但保证透明。
image1342×511 23.4 KB
image1310×872 126 KB
默认全链路用 qwen3-vl:8b-instruct-q8_0 (通义千问多模态量化版),但不同环节可配不同模型 ——OCR、描述、润色都能单独换,改脚本里 DEFAULT_MODELS 字典就行,一行配置,灵活替换。
路由两步走:
① 先qwen3-vl:8b程序预判 :看图片白边多不多、颜色均不均匀,快速猜是「文档」还是「图片」;
② 不确定的,再让模型投票3次 (--router-votes 3 ),少数服从多数,决定走OCR路线还是视觉描述路线。
有交叉验证:
- 纯文字页:双模型并行OCR (GLM路线 + Qwen路线),结果合并,漏的字互相补;
- 含图/手写页:双模型分别描述 (Qwen + Gemma),再单独检测有没有文字,有就补一轮OCR;
- 最后统一由 Refiner 模型做格式对齐+疑点标注,不删原始内容,只加结构 。
网上也有其他佬的工作https://epstein-docs.github.io/
诚实说 :
- 不是所有OCR结果都100%准确,尤其是手写体、模糊截图、低码率视频帧
- 模型是qwen3-vl:8b-instruct-q8_0,你要是想换llama3-vision、minicpm-v,改
DEFAULT_MODELS就行 - 输出是纯文本,方便你后续接RAG、做检索、训练小模型,但「语义理解」还得靠你二次加工
这个仓库仅限研究、审计、技术分析用途。请遵守法律法规,尊重隐私,别拿去做人肉、造谣、传播未脱敏内容。我们折腾技术,是为了让信息更透明、知识更易得,而不是伤害任何人。
网友解答:--【壹】--:
楼主注意人身安全啊,普通人搞这些还是太危险了。
--【贰】--:
佬太强了!
--【叁】--:
w 太伟大了喵~
w 放github上会不哪天消失了喵~(逃
--【肆】--:
然后再写一个中文文档
--【伍】--:
这不得在码云等平台来个备份。
--【陆】--:
太强了佬
--【柒】--:
这这是我能看的吗?
--【捌】--:
都有啥啊,,,好奇
--【玖】--:
前排支持壮举
--【拾】--:
好家伙,抽时间看看!
--【拾壹】--:
这个真得支持
--【拾贰】--:
伟大的实践!
--【拾叁】--:
大佬太伟大了
--【拾肆】--:
你可能让l站出圈吧 震惊
--【拾伍】--:
支持!
--【拾陆】--:
窝趣什么
--【拾柒】--:
哇靠这个是真的太强了!
--【拾捌】--:
前排支持,多平台备份一下?
--【拾玖】--:
这下震惊了

