如何使用BeautifulSoup在Python爬取并分段打印豆瓣小说内容?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1791个文字,预计阅读时间需要8分钟。
在上一篇文章中,我设置了代理IP,成功获取了相关信息。但显示的信息量较多,每页只显示15个短篇故事的信息,若屏幕较小,可能无法一次性展示全部内容。
在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章中,我主要想通过设置回车来控制每一条小说信息的输出,当我按下回车时,会显示下一条小说的信息,按“Q”时,会退出程序,同时,这个方法还会根据包含小说信息的页面数量来决定是否加载新的一页。
首先,我们导入一些模块,定义一个类,初始化方法,定义一些变量:
self.Novels里存放的是小说信息的变量,每一个元素是每一页的小说信息们
self.load决定程序是否继续运行的变量
1 #-*-coding:utf-8-*-2 import urllib2
3 from bs4 import BeautifulSoup
4
5 class dbxs:
6
7 def __init__(self):
8 self.pageIndex = 0
9 self.Novels = []
10 self.load = False
然后,我们获得html页面的内容,在这里,我们为了能够得到信息,而不让豆瓣服务器查封我们的IP,我们设置了请求的头部信息headers和代理IP。
本文共计1791个文字,预计阅读时间需要8分钟。
在上一篇文章中,我设置了代理IP,成功获取了相关信息。但显示的信息量较多,每页只显示15个短篇故事的信息,若屏幕较小,可能无法一次性展示全部内容。
在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章中,我主要想通过设置回车来控制每一条小说信息的输出,当我按下回车时,会显示下一条小说的信息,按“Q”时,会退出程序,同时,这个方法还会根据包含小说信息的页面数量来决定是否加载新的一页。
首先,我们导入一些模块,定义一个类,初始化方法,定义一些变量:
self.Novels里存放的是小说信息的变量,每一个元素是每一页的小说信息们
self.load决定程序是否继续运行的变量
1 #-*-coding:utf-8-*-2 import urllib2
3 from bs4 import BeautifulSoup
4
5 class dbxs:
6
7 def __init__(self):
8 self.pageIndex = 0
9 self.Novels = []
10 self.load = False
然后,我们获得html页面的内容,在这里,我们为了能够得到信息,而不让豆瓣服务器查封我们的IP,我们设置了请求的头部信息headers和代理IP。

