Python爬虫必备库有哪些总结?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1067个文字,预计阅读时间需要5分钟。
Python爬虫常用的库有:- urllib:实现HTTP请求操作,一系类用于操作URL的功能。- requests:基于urllib编写,提供阻塞式HTTP请求库,发送一个请求后,程序会直接等待服务器的响应。
python爬虫要用到的库:
请求库:实现 HTTP 请求操作
- urllib:一系列用于操作URL的功能。
- requests:基于 urllib 编写的,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。
- selenium:自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
- aiohttp:基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。
- 解析库:从网页中提取信息
- beautifulsoup:html 和 XML 的解析,从网页中提取信息,同时拥有强大的API和多样解析方式。
- pyquery:jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好。
- lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
- tesserocr:一个 OCR 库,在遇到验证码(图形验证码为主)的时候,可直接用 OCR 进行识别。
- 存储库:Python 与数据库交互
- pymysql:一个纯 Python 实现的 MySQL 客户端操作库。
本文共计1067个文字,预计阅读时间需要5分钟。
Python爬虫常用的库有:- urllib:实现HTTP请求操作,一系类用于操作URL的功能。- requests:基于urllib编写,提供阻塞式HTTP请求库,发送一个请求后,程序会直接等待服务器的响应。
python爬虫要用到的库:
请求库:实现 HTTP 请求操作
- urllib:一系列用于操作URL的功能。
- requests:基于 urllib 编写的,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。
- selenium:自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
- aiohttp:基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。
- 解析库:从网页中提取信息
- beautifulsoup:html 和 XML 的解析,从网页中提取信息,同时拥有强大的API和多样解析方式。
- pyquery:jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好。
- lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
- tesserocr:一个 OCR 库,在遇到验证码(图形验证码为主)的时候,可直接用 OCR 进行识别。
- 存储库:Python 与数据库交互
- pymysql:一个纯 Python 实现的 MySQL 客户端操作库。

