如何快速给 8w+ 张照片进行去重?
- 内容介绍
- 文章标签
- 相关推荐
CleanShot 2026-04-12 at 20.18.11@2x1920×206 34 KB
如题,有一批大量图片需要去重
且图片不存在完全一致的情况, 因此不太好直接用文件hash来处理
目前在考虑用Embedding类模型(OpenCLIP, Qwen-VL-Embedding)之类来进行处理
不知道佬们有没有更好的基于感知相似的方案
--【壹】--:
八万太多了
一般方法感觉都不好使啊
--【贰】--:
我用的是大力出奇迹的办法,用两个nsfw的模型,一个模型计算图片的色情度,或者XP程度,一个模型计算图片的裸露程度(比如说露脸+露其他关键部位),结合曝光噪点处理,尽量避免把近似人体肤色的物体识别为裸露的皮肤。构造一个评分公式,评分相近的图片(怎么个相近法,我是直接用简单的量化后的差值)会被我删掉分数低的。
速度不快,不过我是仍纯CPU的headless服务器上硬算的,你用gpu加速应该快得多。
我处理也是一次几万张图片。秀人网,Cosplay,onlyfans啥的资源我都是这么处理的。
--【叁】--:
CLIP嵌入向量去重,用不着大模型,那太慢了,有专用的模型,你把这关键字丢给ai问问就知道怎么做了,个人cpu都能跑,有显卡的话一般很快就能跑完你这些照片
--【肆】--:
可以试试md5码,之前有过类似需求,,,
--【伍】--:
感觉真用Embedding的方案 存向量体积都挺夸张的了(
4096维 float32 一个就是 16KB 八万个就是 1.28GB
两两比对从计算量的角度上感觉也很不现实
--【陆】--:
是Cosplay的图包 有不少NSFW的内容 不好丢(x
--【柒】--:
搭建一个飞牛nas,放进去,他有这个功能.
--【捌】--:
让AI写个代码,像素点取样对比。试试效果看。
--【玖】--:
做个网站,给佬友们免费看,让他们给你去重
--【拾】--:
要开发方案还是解决方案呢
导入百度网盘,他能识别去重
--【拾壹】--:
我记得好像有个imagehash专门针对图像的哈希,还可以比对相似率
--【拾贰】--:
czkawka,可以分析近似程度,用这个给图片去重。
--【拾叁】--:
蹲一下解决方案,如果有看到好的解决方案麻烦提提
--【拾肆】--:
吐了,处理过类似的;但好在是文本图像,我直接OCR下对比文本相似度就可以
--【拾伍】--: fenggegang:
magehash
之前有尝试过用他们的pHash实现,不知道是不是参数/数据集问题 实测效果非常差
--【拾陆】--:
GitHub - ldqk/ImageSearch: 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享
基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享
这个项目是做图片搜索的,二开一下应该可以实现重复图片探测
--【拾柒】--:
codex,claude, gemini.
--【拾捌】--:
照片还好搞,重复的几张基本都是挨着的用代码好比对。
但你这个感觉重复的可能离得比较远,代码也不好实现,求助 Ai 吧
--【拾玖】--:
czkawka了解一下,相当好用,能找出视觉上相似但分辨率不同,带有水印或被轻微修改过的图片,8万张只能靠它,速度非常快
CleanShot 2026-04-12 at 20.18.11@2x1920×206 34 KB
如题,有一批大量图片需要去重
且图片不存在完全一致的情况, 因此不太好直接用文件hash来处理
目前在考虑用Embedding类模型(OpenCLIP, Qwen-VL-Embedding)之类来进行处理
不知道佬们有没有更好的基于感知相似的方案
--【壹】--:
八万太多了
一般方法感觉都不好使啊
--【贰】--:
我用的是大力出奇迹的办法,用两个nsfw的模型,一个模型计算图片的色情度,或者XP程度,一个模型计算图片的裸露程度(比如说露脸+露其他关键部位),结合曝光噪点处理,尽量避免把近似人体肤色的物体识别为裸露的皮肤。构造一个评分公式,评分相近的图片(怎么个相近法,我是直接用简单的量化后的差值)会被我删掉分数低的。
速度不快,不过我是仍纯CPU的headless服务器上硬算的,你用gpu加速应该快得多。
我处理也是一次几万张图片。秀人网,Cosplay,onlyfans啥的资源我都是这么处理的。
--【叁】--:
CLIP嵌入向量去重,用不着大模型,那太慢了,有专用的模型,你把这关键字丢给ai问问就知道怎么做了,个人cpu都能跑,有显卡的话一般很快就能跑完你这些照片
--【肆】--:
可以试试md5码,之前有过类似需求,,,
--【伍】--:
感觉真用Embedding的方案 存向量体积都挺夸张的了(
4096维 float32 一个就是 16KB 八万个就是 1.28GB
两两比对从计算量的角度上感觉也很不现实
--【陆】--:
是Cosplay的图包 有不少NSFW的内容 不好丢(x
--【柒】--:
搭建一个飞牛nas,放进去,他有这个功能.
--【捌】--:
让AI写个代码,像素点取样对比。试试效果看。
--【玖】--:
做个网站,给佬友们免费看,让他们给你去重
--【拾】--:
要开发方案还是解决方案呢
导入百度网盘,他能识别去重
--【拾壹】--:
我记得好像有个imagehash专门针对图像的哈希,还可以比对相似率
--【拾贰】--:
czkawka,可以分析近似程度,用这个给图片去重。
--【拾叁】--:
蹲一下解决方案,如果有看到好的解决方案麻烦提提
--【拾肆】--:
吐了,处理过类似的;但好在是文本图像,我直接OCR下对比文本相似度就可以
--【拾伍】--: fenggegang:
magehash
之前有尝试过用他们的pHash实现,不知道是不是参数/数据集问题 实测效果非常差
--【拾陆】--:
GitHub - ldqk/ImageSearch: 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享
基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享
这个项目是做图片搜索的,二开一下应该可以实现重复图片探测
--【拾柒】--:
codex,claude, gemini.
--【拾捌】--:
照片还好搞,重复的几张基本都是挨着的用代码好比对。
但你这个感觉重复的可能离得比较远,代码也不好实现,求助 Ai 吧
--【拾玖】--:
czkawka了解一下,相当好用,能找出视觉上相似但分辨率不同,带有水印或被轻微修改过的图片,8万张只能靠它,速度非常快

