Python如何实现高效快速的网络爬取?
- 内容介绍
- 文章标签
- 相关推荐
本文共计5446个文字,预计阅读时间需要22分钟。
《异步图书侠》+ 在本文中,我们将看到更多独特的例子,以便让你更熟悉Scrapy的两个最重要的类——Request和Response。+ 1.1+ 需要登录的爬虫+ 在通常情况下,你会发现自己想要做的事情。
异步图书君
而在本文中,我们将看到更多特殊的例子,以便让你更加熟悉Scrapy的两个最重要的类——Request和Response。
1.1 需要登录的爬虫
通常情况下,你会发现自己想要抽取数据的网站存在登录机制。大部分情况下,网站会要求你提供用户名和密码用于登录。你可以从web:9312/dynamic(从dev机器访问)或localhost:9312/ dynamic(从宿主机浏览器访问)找到我们要使用的例子。如果使用"user"作为用户名,"pass"作为密码的话,你就可以访问到包含3个房产页面链接的网页。不过现在的问题是,要如何使用Scrapy执行相同的操作?
让我们使用Google Chrome浏览器的开发者工具来尝试理解登录的工作过程(见图1.1)。首先,打开Network选项卡(1)。然后,填写用户名和密码,并单击Login(2)。如果用户名和密码正确,你将会看到包含3个链接的页面。如果用户名和密码不匹配,将会看到一个错误页。
图1.1 登录网站时的请求和响应
当按下Login按钮时,会在Google Chrome浏览器开发者工具的Network选项卡中看到一个包含Request Method: POST的请求,其目的地址为localhost:9312/dynamic/login。
本文共计5446个文字,预计阅读时间需要22分钟。
《异步图书侠》+ 在本文中,我们将看到更多独特的例子,以便让你更熟悉Scrapy的两个最重要的类——Request和Response。+ 1.1+ 需要登录的爬虫+ 在通常情况下,你会发现自己想要做的事情。
异步图书君
而在本文中,我们将看到更多特殊的例子,以便让你更加熟悉Scrapy的两个最重要的类——Request和Response。
1.1 需要登录的爬虫
通常情况下,你会发现自己想要抽取数据的网站存在登录机制。大部分情况下,网站会要求你提供用户名和密码用于登录。你可以从web:9312/dynamic(从dev机器访问)或localhost:9312/ dynamic(从宿主机浏览器访问)找到我们要使用的例子。如果使用"user"作为用户名,"pass"作为密码的话,你就可以访问到包含3个房产页面链接的网页。不过现在的问题是,要如何使用Scrapy执行相同的操作?
让我们使用Google Chrome浏览器的开发者工具来尝试理解登录的工作过程(见图1.1)。首先,打开Network选项卡(1)。然后,填写用户名和密码,并单击Login(2)。如果用户名和密码正确,你将会看到包含3个链接的页面。如果用户名和密码不匹配,将会看到一个错误页。
图1.1 登录网站时的请求和响应
当按下Login按钮时,会在Google Chrome浏览器开发者工具的Network选项卡中看到一个包含Request Method: POST的请求,其目的地址为localhost:9312/dynamic/login。

