如何利用Python编写高效爬虫程序?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1897个文字,预计阅读时间需要8分钟。
什么是爬虫:爬虫也即是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛。如果把互联网比作一张巨大的网,那么爬虫就是在这张网上爬行的蜘蛛。
那么这时候如果把互联网看成一張大網的話,那麼爬蟲就是在這張大網上爬來爬去的蜘蛛,根據它想收集的資料來爬取信息。
什么是爬虫:
爬虫也就是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛???,这时候如果把互联网看成是一张大网来的话,那么爬虫就是在大网上爬来爬去的蜘蛛,根据想要的东西,就将它提取出来
我们在浏览器中输入一个网址,点击了回车,就可以看到网页上的信息。这个其实就是浏览器通过请求网站的服务器而得到的网络资源,那么爬虫其实也就是模拟向浏览器发送请求,获得到了当前网页上的HMTL源码。在这些源码中通常包含了标签和文字信息,这时候我们就可以从这里面取到我们想要的信息了
通常爬虫是从某个网站的某个页面开始的,爬取这个页面的内容,找到页面中的其他的链接地址,然后从这个地址爬到下一个页面,这样一直不停的爬下去,就可以做到批量的信息的抓取,那么我们就可以将网络爬虫看成是一个不同爬取网页提取网页信息的程序
爬虫的基本流程:
1、发送请求-->requests
requests库其实是有一个缺陷的,就是不能够执行JS或者是CSS代码
通过第三方类库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的headers信息,然后就是等待服务器的响应,其实就好像我们在浏览器中输入一个网址,然后点击回车。这个过程就是相当于浏览器作为一个客户端朝着服务端发送了一次请求。
本文共计1897个文字,预计阅读时间需要8分钟。
什么是爬虫:爬虫也即是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛。如果把互联网比作一张巨大的网,那么爬虫就是在这张网上爬行的蜘蛛。
那么这时候如果把互联网看成一張大網的話,那麼爬蟲就是在這張大網上爬來爬去的蜘蛛,根據它想收集的資料來爬取信息。
什么是爬虫:
爬虫也就是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛???,这时候如果把互联网看成是一张大网来的话,那么爬虫就是在大网上爬来爬去的蜘蛛,根据想要的东西,就将它提取出来
我们在浏览器中输入一个网址,点击了回车,就可以看到网页上的信息。这个其实就是浏览器通过请求网站的服务器而得到的网络资源,那么爬虫其实也就是模拟向浏览器发送请求,获得到了当前网页上的HMTL源码。在这些源码中通常包含了标签和文字信息,这时候我们就可以从这里面取到我们想要的信息了
通常爬虫是从某个网站的某个页面开始的,爬取这个页面的内容,找到页面中的其他的链接地址,然后从这个地址爬到下一个页面,这样一直不停的爬下去,就可以做到批量的信息的抓取,那么我们就可以将网络爬虫看成是一个不同爬取网页提取网页信息的程序
爬虫的基本流程:
1、发送请求-->requests
requests库其实是有一个缺陷的,就是不能够执行JS或者是CSS代码
通过第三方类库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的headers信息,然后就是等待服务器的响应,其实就好像我们在浏览器中输入一个网址,然后点击回车。这个过程就是相当于浏览器作为一个客户端朝着服务端发送了一次请求。

