如何用Python高效下载抖音热门大V的视频内容?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1778个文字,预计阅读时间需要8分钟。
前言:本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途。如有问题请及时联系我,我们将尽力为您处理。以下文章来源于Python七,作者somenzz,Python爬虫、数据分析、网站开发。
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于Python七号 ,作者 somenzz
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
space.bilibili.com/523606542
上次写了用 Python 批量下载知乎视频的方式,这次分享用 Python 批量下载抖音个人主页的全部无水印视频,本文重点不是提供一个好用的脚本,而是讲述如何写出这样的脚本,正所谓授人以鱼,不如授人以渔,所谓的爬虫,基本都是这个套路。
思路
先说下思路,要批量下载视频,可以先尝试成功下载一个,确定没有水印,然后在写一个循环进行批量下载。
难点:下载一个视频可能很简单,但下载多个就稍微有点复杂,需要抓取多个视频对应的 url,抖音这块做了防爬措施,只允许手机上看到个人主页的视频列表,电脑端的网页却看不到,这就需要抓取手机的 www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={item_id}" rep = requests.get(share_url, headers=headers, timeout=10) if rep.ok: # item_id item_id = re.findall(r'video/(\d+)', rep.url) if item_id: item_id = item_id[0] # video info rep = requests.get(api.format(item_id=item_id), headers=headers, timeout=10) if rep.ok and rep.json()["status_code"] == 0: info = rep.json()["item_list"][0] tmp = {} tmp["title"] = info["desc"] #去水印的视频链接 play_url = info["video"]["play_addr"]["url_list"][0].replace('playwm', 'play') tmp["url"] = play_url tmp["format"] = 'mp4' def get(share_url) -> dict: """ share_url -> 抖音视频分享url 返回格式 [{'url':'', 'title','format':'',},{}] """ data = [] headers = { 'accept': 'application/json', 'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1' } api = "www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={item_id}" rep = requests.get(share_url, headers=headers, timeout=10) if rep.ok: # item_id item_id = re.findall(r'video/(\d+)', rep.url) if item_id: item_id = item_id[0] # video info rep = requests.get(api.format(item_id=item_id), headers=headers, timeout=10) if rep.ok and rep.json()["status_code"] == 0: info = rep.json()["item_list"][0] tmp = {} tmp["title"] = info["desc"] #去水印的视频链接 play_url = info["video"]["play_addr"]["url_list"][0].replace('playwm', 'play') tmp["url"] = play_url tmp["format"] = 'mp4' data.append(tmp) return data if __name__ =='__main__': videos = get('www.iesdouyin.com/share/video/6920538027345415431/?region=&mid=6920538030852885262&u_code=48&titleType=title&did=0&iid=0') for video in videos: downloader.download(video['url'],video['title'],video['format'],'./download') data.append(tmp) return data if __name__ =='__main__': videos = get('www.iesdouyin.com/share/video/6920538027345415431/?region=&mid=6920538030852885262&u_code=48&titleType=title&did=0&iid=0') for video in videos: downloader.download(video['url'],video['title'],video['format'],'./download')
这里 downloader.download 函数,与前文知乎视频下载 里的函数一样,这里就不贴代码了。
获取个人主页视频链接
前两步已经实现了单个抖音视频的无水印下载,现在我们要做的就是找到大量的这种链接,直接循环就可以了。
任意打开一个大 V 的个人主页,分享,复制链接,使用浏览器打开,一个视频也看不到,而使用抖音 App 就可以看到:
浏览器
抖音APP
说明抖音做了一定的限制,防止从浏览器看到多个视频的信息。这时就需要学会从手机 APP 来抓包,看看手机上的 burp。点击 CA 下载证书。设置->通用->描述文件->点击 PortSwigger CA->安装设置->通用->关于本机->证书信任设置,将 BurpSuite 的证书开启
这样就可以抓取手机上发起的 https 包了。
4、设置 BurpSuite 中断
这一步骤设置之后,手机上的请求会在这里阻塞,你可以放行选择放行,或修改数据包后放行,也可以发往 repeater,以便后续重放请求,因此来自前端的请求是不可信的。
现在打开手机上的抖音 App,这里便会出现大量的请求阻塞在这里,我们选择放行,会发现抖音 App 里的数据一步一步的出现。快刷到个人主页的视频之前,将请求发到 Repeater,如下图所示:
然后打开 BurpSuite 的 Repeater 选项卡,就可以看到刚才发过来的请求,这时我们选择重放,看数据,决定我们需要使用的接口,如下图所示:
发现这个接口满足请求,这里可以看到接口的 url,headers 的各种参数,headers 中的 User-Agent 参数,是区分客户端是浏览器还是 App 的重要标识,因此就可以写代码来模拟请求,进而获取需要的批量下载链接。
由于 url 中的参数非常多,有些是固定不变的,有些随着不同人的主页参数会发生变化,如果仅仅是自己使用,可以简单的通过正则表达式来提取这些 url 链接,然后进行批量下载就可以了。
如果是想写好一个脚本供别人使用,那么就需要做更多的工作,比如说,需要查看更多的 api,以便确定 url 及 headers 中的参数是如何获取或生成的,然后写脚本自动化这一过程,有些情况下,还涉及到加密混淆等反爬措施,这里就不再展开了,请感兴趣的读者自行探索。
最后的话
爬取视频的关键在于找到视频的播放地址,有了播放地址,即使不写代码,也可以使用浏览器下载,寻找播放地址还不够,要考虑是否能去水印,如果要批量下载,那就要知道如何获取更多的视频链接,在浏览器抓取不到的时候,考虑使用 BurpSuite 抓取手机的流量包,进一步提取接口的数据,或模拟手机请求,对搞爬虫的同学,BurpSuite 是一个瑞士军刀,非常实用。
如果本文对你有所帮助,请点个赞或再看吧,谢谢支持。
到此这篇关于使用Python下载抖音各大V视频的思路详解的文章就介绍到这了,更多相关Python下载抖音视频内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!
本文共计1778个文字,预计阅读时间需要8分钟。
前言:本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途。如有问题请及时联系我,我们将尽力为您处理。以下文章来源于Python七,作者somenzz,Python爬虫、数据分析、网站开发。
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于Python七号 ,作者 somenzz
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
space.bilibili.com/523606542
上次写了用 Python 批量下载知乎视频的方式,这次分享用 Python 批量下载抖音个人主页的全部无水印视频,本文重点不是提供一个好用的脚本,而是讲述如何写出这样的脚本,正所谓授人以鱼,不如授人以渔,所谓的爬虫,基本都是这个套路。
思路
先说下思路,要批量下载视频,可以先尝试成功下载一个,确定没有水印,然后在写一个循环进行批量下载。
难点:下载一个视频可能很简单,但下载多个就稍微有点复杂,需要抓取多个视频对应的 url,抖音这块做了防爬措施,只允许手机上看到个人主页的视频列表,电脑端的网页却看不到,这就需要抓取手机的 www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={item_id}" rep = requests.get(share_url, headers=headers, timeout=10) if rep.ok: # item_id item_id = re.findall(r'video/(\d+)', rep.url) if item_id: item_id = item_id[0] # video info rep = requests.get(api.format(item_id=item_id), headers=headers, timeout=10) if rep.ok and rep.json()["status_code"] == 0: info = rep.json()["item_list"][0] tmp = {} tmp["title"] = info["desc"] #去水印的视频链接 play_url = info["video"]["play_addr"]["url_list"][0].replace('playwm', 'play') tmp["url"] = play_url tmp["format"] = 'mp4' def get(share_url) -> dict: """ share_url -> 抖音视频分享url 返回格式 [{'url':'', 'title','format':'',},{}] """ data = [] headers = { 'accept': 'application/json', 'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1' } api = "www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids={item_id}" rep = requests.get(share_url, headers=headers, timeout=10) if rep.ok: # item_id item_id = re.findall(r'video/(\d+)', rep.url) if item_id: item_id = item_id[0] # video info rep = requests.get(api.format(item_id=item_id), headers=headers, timeout=10) if rep.ok and rep.json()["status_code"] == 0: info = rep.json()["item_list"][0] tmp = {} tmp["title"] = info["desc"] #去水印的视频链接 play_url = info["video"]["play_addr"]["url_list"][0].replace('playwm', 'play') tmp["url"] = play_url tmp["format"] = 'mp4' data.append(tmp) return data if __name__ =='__main__': videos = get('www.iesdouyin.com/share/video/6920538027345415431/?region=&mid=6920538030852885262&u_code=48&titleType=title&did=0&iid=0') for video in videos: downloader.download(video['url'],video['title'],video['format'],'./download') data.append(tmp) return data if __name__ =='__main__': videos = get('www.iesdouyin.com/share/video/6920538027345415431/?region=&mid=6920538030852885262&u_code=48&titleType=title&did=0&iid=0') for video in videos: downloader.download(video['url'],video['title'],video['format'],'./download')
这里 downloader.download 函数,与前文知乎视频下载 里的函数一样,这里就不贴代码了。
获取个人主页视频链接
前两步已经实现了单个抖音视频的无水印下载,现在我们要做的就是找到大量的这种链接,直接循环就可以了。
任意打开一个大 V 的个人主页,分享,复制链接,使用浏览器打开,一个视频也看不到,而使用抖音 App 就可以看到:
浏览器
抖音APP
说明抖音做了一定的限制,防止从浏览器看到多个视频的信息。这时就需要学会从手机 APP 来抓包,看看手机上的 burp。点击 CA 下载证书。设置->通用->描述文件->点击 PortSwigger CA->安装设置->通用->关于本机->证书信任设置,将 BurpSuite 的证书开启
这样就可以抓取手机上发起的 https 包了。
4、设置 BurpSuite 中断
这一步骤设置之后,手机上的请求会在这里阻塞,你可以放行选择放行,或修改数据包后放行,也可以发往 repeater,以便后续重放请求,因此来自前端的请求是不可信的。
现在打开手机上的抖音 App,这里便会出现大量的请求阻塞在这里,我们选择放行,会发现抖音 App 里的数据一步一步的出现。快刷到个人主页的视频之前,将请求发到 Repeater,如下图所示:
然后打开 BurpSuite 的 Repeater 选项卡,就可以看到刚才发过来的请求,这时我们选择重放,看数据,决定我们需要使用的接口,如下图所示:
发现这个接口满足请求,这里可以看到接口的 url,headers 的各种参数,headers 中的 User-Agent 参数,是区分客户端是浏览器还是 App 的重要标识,因此就可以写代码来模拟请求,进而获取需要的批量下载链接。
由于 url 中的参数非常多,有些是固定不变的,有些随着不同人的主页参数会发生变化,如果仅仅是自己使用,可以简单的通过正则表达式来提取这些 url 链接,然后进行批量下载就可以了。
如果是想写好一个脚本供别人使用,那么就需要做更多的工作,比如说,需要查看更多的 api,以便确定 url 及 headers 中的参数是如何获取或生成的,然后写脚本自动化这一过程,有些情况下,还涉及到加密混淆等反爬措施,这里就不再展开了,请感兴趣的读者自行探索。
最后的话
爬取视频的关键在于找到视频的播放地址,有了播放地址,即使不写代码,也可以使用浏览器下载,寻找播放地址还不够,要考虑是否能去水印,如果要批量下载,那就要知道如何获取更多的视频链接,在浏览器抓取不到的时候,考虑使用 BurpSuite 抓取手机的流量包,进一步提取接口的数据,或模拟手机请求,对搞爬虫的同学,BurpSuite 是一个瑞士军刀,非常实用。
如果本文对你有所帮助,请点个赞或再看吧,谢谢支持。
到此这篇关于使用Python下载抖音各大V视频的思路详解的文章就介绍到这了,更多相关Python下载抖音视频内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!

