如何使用最新版selenium高效爬取某勾网职位信息?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1298个文字,预计阅读时间需要6分钟。
一. 某职位爬取+岗位职责,目前反爬机制特别严格,想要爬取一些职位数据是上加难。因此,我们现在使用selenium模拟真人操作网页爬取这个网站的职位。我选择使用selenium模拟真人,因为这样可以更有效地绕过反爬机制。
一.某勾网职位爬取
众所周知,现在反爬机制特别严重,我们想要爬取一些职位数据是难上加难,所以我们现在使用selenium模拟真人操作网页爬取这个某勾网的职位。
我选用selenium模拟真人操作网页,使用谷歌和火狐游览器的插件,进行动态的对目标网站进行爬取。 将目标网页存入一个列表中,每个url爬取30页(使用一个30次的循环操作)将里面当前页面的数据提取出来。然后分别调用getData函数(提取目标值存入对应的列表内),得到目标值datalist,然后使用pandas转化完成,存入csv文件里。最终得到如下数据:
共计8000条左右数据。
爬虫结构图
1.1 selenium的使用
1、爬虫开始,先将需要的模块包导入:
from selenium import webdriver # 模拟真人操作网页 import pyquery as pq # 解析网页 import time # 时间模块 import os # 文件模块 import pandas as pd from selenium.webdriver.chrome.service import Service # 新增 from selenium.webdriver.common.by import By2.避免乱码,在py文件的最上面,加入utf-8编码,显示中文。
本文共计1298个文字,预计阅读时间需要6分钟。
一. 某职位爬取+岗位职责,目前反爬机制特别严格,想要爬取一些职位数据是上加难。因此,我们现在使用selenium模拟真人操作网页爬取这个网站的职位。我选择使用selenium模拟真人,因为这样可以更有效地绕过反爬机制。
一.某勾网职位爬取
众所周知,现在反爬机制特别严重,我们想要爬取一些职位数据是难上加难,所以我们现在使用selenium模拟真人操作网页爬取这个某勾网的职位。
我选用selenium模拟真人操作网页,使用谷歌和火狐游览器的插件,进行动态的对目标网站进行爬取。 将目标网页存入一个列表中,每个url爬取30页(使用一个30次的循环操作)将里面当前页面的数据提取出来。然后分别调用getData函数(提取目标值存入对应的列表内),得到目标值datalist,然后使用pandas转化完成,存入csv文件里。最终得到如下数据:
共计8000条左右数据。
爬虫结构图
1.1 selenium的使用
1、爬虫开始,先将需要的模块包导入:
from selenium import webdriver # 模拟真人操作网页 import pyquery as pq # 解析网页 import time # 时间模块 import os # 文件模块 import pandas as pd from selenium.webdriver.chrome.service import Service # 新增 from selenium.webdriver.common.by import By2.避免乱码,在py文件的最上面,加入utf-8编码,显示中文。

