如何用Python爬虫抓取某电影网站精选小电影资源?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1916个文字,预计阅读时间需要8分钟。
学习笔记+前言:本案例中,需要抓取某电影网站【最新电影栏目】中的电影名称及其下载链接,并将这些数据存储在数据库中。
案例(某电影网站数据抓取)+ 首先确定目标:
1. 抓取电影名称
2.抓取电影下载链接
学习笔记
前言:此案例中,要求抓取某电影网站内里的电影名称,以及该电影的下载链接,并将这些数据存储在数据库中。
案例(某电影网站数据抓取)
首先,确定要爬取的某电影网站的URL地址
www.ygdy8.net/html/gndy/dyzz/index.html
查看网页是否为静态网页(与静态相对的是动态网页)
怎么查看是否为静态网页?我们可以ctrl+f搜索一下想要爬取的数据,如果查询到数据了,就暂时判定是静态的。但如果没有查询到我们想要的数据,且看到一堆堆的css和js文件,则这个网页可能是动态网页。
打开网页源代码,ctrl+f搜索关键字:
嗯,查询到了数据,该网页应该是静态的。
爬取目标
电影名称(在一级页面中),以及点开电影详情链接后,该电影的下载地址(在二级页面中)。
一级页面中需要爬取的电影名称:
二级页面中需要爬取的下载地址:
这里所谓的二级页面,是相对于一级页面而言的。也就是从一级页面中链接出来的页面。这样说,可能不够形象。举个例子,比如打开淘宝,淘宝首页就是一级页面,点击首页中的一个分类,所弹出来的网页,就是二级页面。
本文共计1916个文字,预计阅读时间需要8分钟。
学习笔记+前言:本案例中,需要抓取某电影网站【最新电影栏目】中的电影名称及其下载链接,并将这些数据存储在数据库中。
案例(某电影网站数据抓取)+ 首先确定目标:
1. 抓取电影名称
2.抓取电影下载链接
学习笔记
前言:此案例中,要求抓取某电影网站内里的电影名称,以及该电影的下载链接,并将这些数据存储在数据库中。
案例(某电影网站数据抓取)
首先,确定要爬取的某电影网站的URL地址
www.ygdy8.net/html/gndy/dyzz/index.html
查看网页是否为静态网页(与静态相对的是动态网页)
怎么查看是否为静态网页?我们可以ctrl+f搜索一下想要爬取的数据,如果查询到数据了,就暂时判定是静态的。但如果没有查询到我们想要的数据,且看到一堆堆的css和js文件,则这个网页可能是动态网页。
打开网页源代码,ctrl+f搜索关键字:
嗯,查询到了数据,该网页应该是静态的。
爬取目标
电影名称(在一级页面中),以及点开电影详情链接后,该电影的下载地址(在二级页面中)。
一级页面中需要爬取的电影名称:
二级页面中需要爬取的下载地址:
这里所谓的二级页面,是相对于一级页面而言的。也就是从一级页面中链接出来的页面。这样说,可能不够形象。举个例子,比如打开淘宝,淘宝首页就是一级页面,点击首页中的一个分类,所弹出来的网页,就是二级页面。

