如何快速给 8w+ 张照片进行去重?
- 内容介绍
- 文章标签
- 相关推荐
CleanShot 2026-04-12 at 20.18.11@2x1920×206 34 KB
如题,有一批大量图片需要去重
且图片不存在完全一致的情况, 因此不太好直接用文件hash来处理
目前在考虑用Embedding类模型(OpenCLIP, Qwen-VL-Embedding)之类来进行处理
不知道佬们有没有更好的基于感知相似的方案
--【壹】--:
八万太多了
一般方法感觉都不好使啊
--【贰】--:
我用的是大力出奇迹的办法,用两个nsfw的模型,一个模型计算图片的色情度,或者XP程度,一个模型计算图片的裸露程度(比如说露脸+露其他关键部位),结合曝光噪点处理,尽量避免把近似人体肤色的物体识别为裸露的皮肤。构造一个评分公式,评分相近的图片(怎么个相近法,我是直接用简单的量化后的差值)会被我删掉分数低的。
速度不快,不过我是仍纯CPU的headless服务器上硬算的,你用gpu加速应该快得多。
我处理也是一次几万张图片。秀人网,Cosplay,onlyfans啥的资源我都是这么处理的。
CleanShot 2026-04-12 at 20.18.11@2x1920×206 34 KB
如题,有一批大量图片需要去重
且图片不存在完全一致的情况, 因此不太好直接用文件hash来处理
目前在考虑用Embedding类模型(OpenCLIP, Qwen-VL-Embedding)之类来进行处理
不知道佬们有没有更好的基于感知相似的方案
--【壹】--:
八万太多了
一般方法感觉都不好使啊
--【贰】--:
我用的是大力出奇迹的办法,用两个nsfw的模型,一个模型计算图片的色情度,或者XP程度,一个模型计算图片的裸露程度(比如说露脸+露其他关键部位),结合曝光噪点处理,尽量避免把近似人体肤色的物体识别为裸露的皮肤。构造一个评分公式,评分相近的图片(怎么个相近法,我是直接用简单的量化后的差值)会被我删掉分数低的。
速度不快,不过我是仍纯CPU的headless服务器上硬算的,你用gpu加速应该快得多。
我处理也是一次几万张图片。秀人网,Cosplay,onlyfans啥的资源我都是这么处理的。

