如何快速给 8w+ 张照片进行去重?

2026-04-13 12:141阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

CleanShot 2026-04-12 at 20.18.11@2x1920×206 34 KB

如题,有一批大量图片需要去重
且图片不存在完全一致的情况, 因此不太好直接用文件hash来处理
目前在考虑用Embedding类模型(OpenCLIP, Qwen-VL-Embedding)之类来进行处理
不知道佬们有没有更好的基于感知相似的方案

网友解答:
--【壹】--:

八万太多了

一般方法感觉都不好使啊


--【贰】--:

我用的是大力出奇迹的办法,用两个nsfw的模型,一个模型计算图片的色情度,或者XP程度,一个模型计算图片的裸露程度(比如说露脸+露其他关键部位),结合曝光噪点处理,尽量避免把近似人体肤色的物体识别为裸露的皮肤。构造一个评分公式,评分相近的图片(怎么个相近法,我是直接用简单的量化后的差值)会被我删掉分数低的。

速度不快,不过我是仍纯CPU的headless服务器上硬算的,你用gpu加速应该快得多。
我处理也是一次几万张图片。秀人网,Cosplay,onlyfans啥的资源我都是这么处理的。


--【叁】--:

CLIP嵌入向量去重,用不着大模型,那太慢了,有专用的模型,你把这关键字丢给ai问问就知道怎么做了,个人cpu都能跑,有显卡的话一般很快就能跑完你这些照片


--【肆】--:

可以试试md5码,之前有过类似需求,,,


--【伍】--:

感觉真用Embedding的方案 存向量体积都挺夸张的了(
4096维 float32 一个就是 16KB 八万个就是 1.28GB
两两比对从计算量的角度上感觉也很不现实


--【陆】--:

是Cosplay的图包 有不少NSFW的内容 不好丢(x


--【柒】--:

搭建一个飞牛nas,放进去,他有这个功能.


--【捌】--:

让AI写个代码,像素点取样对比。试试效果看。


--【玖】--:

做个网站,给佬友们免费看,让他们给你去重


--【拾】--:

要开发方案还是解决方案呢

导入百度网盘,他能识别去重


--【拾壹】--:

我记得好像有个imagehash专门针对图像的哈希,还可以比对相似率


--【拾贰】--:

czkawka,可以分析近似程度,用这个给图片去重。


--【拾叁】--:

蹲一下解决方案,如果有看到好的解决方案麻烦提提


--【拾肆】--:

吐了,处理过类似的;但好在是文本图像,我直接OCR下对比文本相似度就可以


--【拾伍】--: fenggegang:

magehash

之前有尝试过用他们的pHash实现,不知道是不是参数/数据集问题 实测效果非常差


--【拾陆】--:
github.com

GitHub - ldqk/ImageSearch: 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享

基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享

这个项目是做图片搜索的,二开一下应该可以实现重复图片探测


--【拾柒】--:

codex,claude, gemini.


--【拾捌】--:

照片还好搞,重复的几张基本都是挨着的用代码好比对。

但你这个感觉重复的可能离得比较远,代码也不好实现,求助 Ai 吧


--【拾玖】--:

czkawka了解一下,相当好用,能找出视觉上相似但分辨率不同,带有水印或被轻微修改过的图片,8万张只能靠它,速度非常快