如何高效爬取优客逸家最新挂牌房源信息?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1407个文字,预计阅读时间需要6分钟。
优客逸家挂牌房源爬取+背景+问题分析及思路+免责声明+背景+上次爬取了青客公寓各城市的挂牌房源信息,本次计算同类型分散式集中,包括公寓品牌优客逸家。
优客逸家挂牌房源爬取
- 背景
- 问题分析及思路
- 免责申明
背景
上次爬取了青客公寓各城市的挂牌房源信息,这次打算拿同类型的分散式集中公寓品牌优客逸家练练手,由于上次是有城市简称和网页总数的两个输入,只能算半自动化,这次决定重新设计一下,让程序自己判断是否到最后一页,一直到最后一页爬完程序运行结束。
问题分析及思路
由于要设计一个判断来判断是否到达最后一页,所以用到了while语句,并且是否到达最后一页作为判断条件,所以最后一页需要单独再爬一下,这样整个程序只需要运行一次,采用模块化设计,定义了 get_nextpage() 函数来获取下一页网址和最后一页网址,定义了 get_items_link() 函数来获取每一页房源列表的详情地址,然后通过第三个函数 get_detail_items() 进入详情页获取详情字段,最后用一个主函数 main() 把这几个函数整合起来,分析详情页发现可以获取 区域,板块,小区名称,房源标题,房源代码,价格,楼层,地址 等关键信息,所以在创建表的时候要一条一条的设计,最后爬虫要设计程序挂起时间 time.sleep(),尽量让对方服务器压力小点。
本文共计1407个文字,预计阅读时间需要6分钟。
优客逸家挂牌房源爬取+背景+问题分析及思路+免责声明+背景+上次爬取了青客公寓各城市的挂牌房源信息,本次计算同类型分散式集中,包括公寓品牌优客逸家。
优客逸家挂牌房源爬取
- 背景
- 问题分析及思路
- 免责申明
背景
上次爬取了青客公寓各城市的挂牌房源信息,这次打算拿同类型的分散式集中公寓品牌优客逸家练练手,由于上次是有城市简称和网页总数的两个输入,只能算半自动化,这次决定重新设计一下,让程序自己判断是否到最后一页,一直到最后一页爬完程序运行结束。
问题分析及思路
由于要设计一个判断来判断是否到达最后一页,所以用到了while语句,并且是否到达最后一页作为判断条件,所以最后一页需要单独再爬一下,这样整个程序只需要运行一次,采用模块化设计,定义了 get_nextpage() 函数来获取下一页网址和最后一页网址,定义了 get_items_link() 函数来获取每一页房源列表的详情地址,然后通过第三个函数 get_detail_items() 进入详情页获取详情字段,最后用一个主函数 main() 把这几个函数整合起来,分析详情页发现可以获取 区域,板块,小区名称,房源标题,房源代码,价格,楼层,地址 等关键信息,所以在创建表的时候要一条一条的设计,最后爬虫要设计程序挂起时间 time.sleep(),尽量让对方服务器压力小点。

