学Python应对字体反爬,这篇博客是否人人必看?
- 内容介绍
- 文章标签
- 相关推荐
本文共计636个文字,预计阅读时间需要3分钟。
@toc🔍 自如实战场景:我们又碰到一个文字反爬虫的站点。该站点的文字反爬虫不是用文字文件实现的,而是基于图片 + CSS,具体如图所示。这里运用CSS背景偏移技术实现数字1。
@[toc]
⛳️ 自如 实战场景
我们又碰到了一个字体反爬的站点,自如。该站点的字体反爬不是用字体文件实现的,而是基于图片+CSS,具体如下图所示。这里运用 CSS 背景偏移技术实现数字的展示。
字体图片如下所示。图片宽度和高度的比例是 300*28,其中 300 像素被等比例放置了 10 个数字,即每 30 个像素一个数字,实测间隔是 21.4 个像素。
后续可以参考该值做区分。
下面还需要确定一下每次刷新,图片是否发生变化。
刷新了一下,发生了变化  ̄ □  ̄||
但是原理是一样的,就是获取图片之后,然后解析对应的图片,通过 OCR 技术,识别文字。
⛳️ 自如 实战编码
获取源码,解析图片地址。
本文共计636个文字,预计阅读时间需要3分钟。
@toc🔍 自如实战场景:我们又碰到一个文字反爬虫的站点。该站点的文字反爬虫不是用文字文件实现的,而是基于图片 + CSS,具体如图所示。这里运用CSS背景偏移技术实现数字1。
@[toc]
⛳️ 自如 实战场景
我们又碰到了一个字体反爬的站点,自如。该站点的字体反爬不是用字体文件实现的,而是基于图片+CSS,具体如下图所示。这里运用 CSS 背景偏移技术实现数字的展示。
字体图片如下所示。图片宽度和高度的比例是 300*28,其中 300 像素被等比例放置了 10 个数字,即每 30 个像素一个数字,实测间隔是 21.4 个像素。
后续可以参考该值做区分。
下面还需要确定一下每次刷新,图片是否发生变化。
刷新了一下,发生了变化  ̄ □  ̄||
但是原理是一样的,就是获取图片之后,然后解析对应的图片,通过 OCR 技术,识别文字。
⛳️ 自如 实战编码
获取源码,解析图片地址。

