如何利用scrapy框架在爬取微博数据时高效使用长尾词构建的Cookie池?

2026-04-20 08:022阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计564个文字,预计阅读时间需要3分钟。

如何利用scrapy框架在爬取微博数据时高效使用长尾词构建的Cookie池?

获取代码:Cookie池(主要用于微博登录,也可自定义配置其他网站的网址)+ 下载代码GitHub:[链接](https://github.com/Python3WebSpider/CookiesPool) + 下载安装后,注意查看网页底部的相关基础配置和操作指南!

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

如何利用scrapy框架在爬取微博数据时高效使用长尾词构建的Cookie池?

下载代码GitHub:github.com/Python3WebSpider/CookiesPool

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

2、设置使用的浏览器

3、设置模拟登陆

源码cookies.py的修改(以下两处不修改可能会产生bug)

4、获取cookie

随机获取Cookies:localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self): return requests.get('127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)

settings.py 中的配置:

5、录入账号和密码:

格式规定(账号----密码)

6、验证:(注意:使用cmd)

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!

本文共计564个文字,预计阅读时间需要3分钟。

如何利用scrapy框架在爬取微博数据时高效使用长尾词构建的Cookie池?

获取代码:Cookie池(主要用于微博登录,也可自定义配置其他网站的网址)+ 下载代码GitHub:[链接](https://github.com/Python3WebSpider/CookiesPool) + 下载安装后,注意查看网页底部的相关基础配置和操作指南!

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

如何利用scrapy框架在爬取微博数据时高效使用长尾词构建的Cookie池?

下载代码GitHub:github.com/Python3WebSpider/CookiesPool

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

2、设置使用的浏览器

3、设置模拟登陆

源码cookies.py的修改(以下两处不修改可能会产生bug)

4、获取cookie

随机获取Cookies:localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self): return requests.get('127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)

settings.py 中的配置:

5、录入账号和密码:

格式规定(账号----密码)

6、验证:(注意:使用cmd)

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!