Python中如何实现自定义Handler处理器及Opener工作原理剖析?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1040个文字,预计阅读时间需要5分钟。
在我们之前,一直使用的是`urlopen`,这是一个特殊的opener(也是模块帮助构建好的)。但基本的`urlopen`方法不支持代理、cookie等HTTP/HTTPS高级功能。为了支持这些功能:
1. 使用`requests`库来代替`urlopen`,它可以方便地处理代理和cookie。
我们之前一直都在使用的urlopen,这是一个特殊的opener(也就是模块帮我们构建好的)。
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
1.使用相差的Handler处理器来创建特定功能的处理器对象;
2.然后通过urllib.request.build_opener()方法,创建自定义opener对象
3.使用自定义的opener对象,调用open()方法发送请求。
如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener()将自定义的opener对象定义为全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)
简单的自定义opener()
#!/usr/bin/python3 # -*- coding:utf-8 -*- __author__ = 'mayi' import urllib.request # 构建一个HTTPHandler处理器对象,支持处理HTTP请求。 www.baidu.com/") # 调用自定义opener对象的open()方法,发送request请求 response = opener.open(request) # 获取服务器响应内容 html = response.read() print(html)
这种方式发送请求得到的结果,和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。
如果在HTTPHandler()增加debuglevel = 1参数,还会将Debug Log打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调度,有时可以省去抓包的工作。
# 仅需要修改的代码部分: # 构建一个HTTPHandler 处理器对象,支持处理HTTP请求,同时开启Debug Log,debuglevel 值默认 0 www.baidu.com/") # 1. 如果这么写,只有使用opener.open()方法发送请求才使用自定义的代理,而urlopen()则不使用自定义代理。 response = opener.open(request) # 2. 如果这么写,就是将opener应用到全局,之后所有的,不管是opener.open()还是urlopen() 发送请求,都将使用自定义代理。 # urllib.request.install_opener(opener) # response = urlopen(request) html = response.read() print(html)
免费的开放代理获取基本没有什么成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。
免费代理网站举例:
- 西刺免费代理IP
- 快代理免费代理
- Proxy360代理
- 全网代理IP
如果代理IP足够多,就可以让程序随机获取一个代理IP去访问网站。
import random proxy_list = [ {"www.renren.com/PLogin.do" """ import urllib import urllib.request import www.renren.com/PLogin.do", data = postdata) # 通过opener发送这个请求,并获取登录后的Cookie值 opener.open(request) # opener包含用户登录后的Cookie值,可以直接访问那些登录后才可以访问的页面 response = opener.open("www.renren.com/413928886/profile") # 获取页面内容 html = response.read() # 将页面内容存储至本地磁盘 fo = open("renren.html", "wb") fo.write(html) fo.close()
模拟登录要注意几点:
- 登录一般都会先有一个HTTP GET,用于获取一些信息及获得Cookie,然后再HTTP POST登录。
- HTTP POST登录的链接有可能是动态的,从GET返回的信息中获取。
- password(密码)有些是明文发送,有些是加密后发送。有些网站甚至采用动态加密的,同时包括了很多其他数据的加密信息,只能通过查看JS源码获得加密算法,再去破解加密,非常困难。
- 大多数网站的登录整体流程是类似的,可能部分细节不一样,所以其他网站登录时,需根据具体情况,作对应的修改。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持易盾网络。
本文共计1040个文字,预计阅读时间需要5分钟。
在我们之前,一直使用的是`urlopen`,这是一个特殊的opener(也是模块帮助构建好的)。但基本的`urlopen`方法不支持代理、cookie等HTTP/HTTPS高级功能。为了支持这些功能:
1. 使用`requests`库来代替`urlopen`,它可以方便地处理代理和cookie。
我们之前一直都在使用的urlopen,这是一个特殊的opener(也就是模块帮我们构建好的)。
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
1.使用相差的Handler处理器来创建特定功能的处理器对象;
2.然后通过urllib.request.build_opener()方法,创建自定义opener对象
3.使用自定义的opener对象,调用open()方法发送请求。
如果程序里所有的请求都使用自定义的opener,可以使用urllib.request.install_opener()将自定义的opener对象定义为全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)
简单的自定义opener()
#!/usr/bin/python3 # -*- coding:utf-8 -*- __author__ = 'mayi' import urllib.request # 构建一个HTTPHandler处理器对象,支持处理HTTP请求。 www.baidu.com/") # 调用自定义opener对象的open()方法,发送request请求 response = opener.open(request) # 获取服务器响应内容 html = response.read() print(html)
这种方式发送请求得到的结果,和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。
如果在HTTPHandler()增加debuglevel = 1参数,还会将Debug Log打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调度,有时可以省去抓包的工作。
# 仅需要修改的代码部分: # 构建一个HTTPHandler 处理器对象,支持处理HTTP请求,同时开启Debug Log,debuglevel 值默认 0 www.baidu.com/") # 1. 如果这么写,只有使用opener.open()方法发送请求才使用自定义的代理,而urlopen()则不使用自定义代理。 response = opener.open(request) # 2. 如果这么写,就是将opener应用到全局,之后所有的,不管是opener.open()还是urlopen() 发送请求,都将使用自定义代理。 # urllib.request.install_opener(opener) # response = urlopen(request) html = response.read() print(html)
免费的开放代理获取基本没有什么成本,我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。
免费代理网站举例:
- 西刺免费代理IP
- 快代理免费代理
- Proxy360代理
- 全网代理IP
如果代理IP足够多,就可以让程序随机获取一个代理IP去访问网站。
import random proxy_list = [ {"www.renren.com/PLogin.do" """ import urllib import urllib.request import www.renren.com/PLogin.do", data = postdata) # 通过opener发送这个请求,并获取登录后的Cookie值 opener.open(request) # opener包含用户登录后的Cookie值,可以直接访问那些登录后才可以访问的页面 response = opener.open("www.renren.com/413928886/profile") # 获取页面内容 html = response.read() # 将页面内容存储至本地磁盘 fo = open("renren.html", "wb") fo.write(html) fo.close()
模拟登录要注意几点:
- 登录一般都会先有一个HTTP GET,用于获取一些信息及获得Cookie,然后再HTTP POST登录。
- HTTP POST登录的链接有可能是动态的,从GET返回的信息中获取。
- password(密码)有些是明文发送,有些是加密后发送。有些网站甚至采用动态加密的,同时包括了很多其他数据的加密信息,只能通过查看JS源码获得加密算法,再去破解加密,非常困难。
- 大多数网站的登录整体流程是类似的,可能部分细节不一样,所以其他网站登录时,需根据具体情况,作对应的修改。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持易盾网络。

