Python如何实现针对特定字体的反爬虫策略案例分析?
- 内容介绍
- 文章标签
- 相关推荐
本文共计493个文字,预计阅读时间需要2分钟。
🤖+起点+实战场景+本次采集的案例是起点文中,你可以随机打开一本小说,检查一下网络请求中是否存在字体文件响应数据。
⛳️ 起点 实战场景
本次采集的案例是点起文中,你可以随机打开一本目标xiaoshuo,检查一下网络请求中是否存在字体文件响应数据。
Python脱敏处理.Python脱敏处理.Python脱敏处理/info/2952453/#Catalog字体加密位置呈现的效果如下图所示。
编写网页爬取代码,查看其字体位置使用的编码。
import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36", "Origin": 'Python脱敏处理.com', "referer": "Python脱敏处理.com" } response = requests.get(url='Python脱敏处理/info/2952453/',headers=headers) response.encoding = 'utf-8' print(response.text[:20000])截取源码部分,查看编码内容。
同时下载本页面的字体文件,用工具打开之后,发现字体编码图形顺序没有什么变化,这对于后续我们解决反爬就变得非常简单了。
本文共计493个文字,预计阅读时间需要2分钟。
🤖+起点+实战场景+本次采集的案例是起点文中,你可以随机打开一本小说,检查一下网络请求中是否存在字体文件响应数据。
⛳️ 起点 实战场景
本次采集的案例是点起文中,你可以随机打开一本目标xiaoshuo,检查一下网络请求中是否存在字体文件响应数据。
Python脱敏处理.Python脱敏处理.Python脱敏处理/info/2952453/#Catalog字体加密位置呈现的效果如下图所示。
编写网页爬取代码,查看其字体位置使用的编码。
import requests headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36", "Origin": 'Python脱敏处理.com', "referer": "Python脱敏处理.com" } response = requests.get(url='Python脱敏处理/info/2952453/',headers=headers) response.encoding = 'utf-8' print(response.text[:20000])截取源码部分,查看编码内容。
同时下载本页面的字体文件,用工具打开之后,发现字体编码图形顺序没有什么变化,这对于后续我们解决反爬就变得非常简单了。

