如何使用Python Selenium高效提取网页数据?

2026-05-16 20:402阅读0评论SEO问题
  • 内容介绍
  • 相关推荐

本文共计493个文字,预计阅读时间需要2分钟。

如何使用Python Selenium高效提取网页数据?

1. 获取页面:使用selenium获取当前页面pythonfrom selenium import webdriverimport time

browser=webdriver.Chrome()browser.get('https://www.baidu.com')title=browser.titleprint(title)

1.获取页面title

title:获取当前页面的标题显示的字段

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.title) #输出内容:百度一下,你就知道

2.获取页面URL

current_url:获取当前页面的URL

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.current_url) #输出内容:www.baidu.com/

3.获取浏览器版本号

capabilities['version']):打印浏览器version的值

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.capabilities['version']) #输出内容:67.0.3396.87

4.获取元素尺寸

size:返回元素的尺寸

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #定位输入框 input_box = browser.find_element_by_id('kw') #打印输入框尺寸 print(input_box.size) #输出内容:{'height': 22, 'width': 500}

5.获取元素的文本

text:返回元素的文本信息

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #定位备案元素 recordcode = browser.find_element_by_id('jgwab') #打印备案元素信息 print(recordcode.text) #输出内容:京公网安备11000002000001号

6.获得属性值

  • get_attribute('')方法
  • get_attribute('href'):获取href属性值
  • get_attribute('id'):获取id属性值

# coding=utf-8 import time from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() driver.implicitly_wait(6) driver.get("www.baidu.com") time.sleep(1) for link in driver.find_elements_by_xpath("//*[@href]"): print (link.get_attribute('href')) driver.quit()

到此这篇关于Python Selenium自动化获取页面信息的方法的文章就介绍到这了,更多相关Python Selenium 获取页面信息内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!

如何使用Python Selenium高效提取网页数据?

本文共计493个文字,预计阅读时间需要2分钟。

如何使用Python Selenium高效提取网页数据?

1. 获取页面:使用selenium获取当前页面pythonfrom selenium import webdriverimport time

browser=webdriver.Chrome()browser.get('https://www.baidu.com')title=browser.titleprint(title)

1.获取页面title

title:获取当前页面的标题显示的字段

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.title) #输出内容:百度一下,你就知道

2.获取页面URL

current_url:获取当前页面的URL

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.current_url) #输出内容:www.baidu.com/

3.获取浏览器版本号

capabilities['version']):打印浏览器version的值

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #打印网页标题 print(browser.capabilities['version']) #输出内容:67.0.3396.87

4.获取元素尺寸

size:返回元素的尺寸

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #定位输入框 input_box = browser.find_element_by_id('kw') #打印输入框尺寸 print(input_box.size) #输出内容:{'height': 22, 'width': 500}

5.获取元素的文本

text:返回元素的文本信息

from selenium import webdriver import time browser = webdriver.Chrome() browser.get('www.baidu.com') #定位备案元素 recordcode = browser.find_element_by_id('jgwab') #打印备案元素信息 print(recordcode.text) #输出内容:京公网安备11000002000001号

6.获得属性值

  • get_attribute('')方法
  • get_attribute('href'):获取href属性值
  • get_attribute('id'):获取id属性值

# coding=utf-8 import time from selenium import webdriver driver = webdriver.Chrome() driver.maximize_window() driver.implicitly_wait(6) driver.get("www.baidu.com") time.sleep(1) for link in driver.find_elements_by_xpath("//*[@href]"): print (link.get_attribute('href')) driver.quit()

到此这篇关于Python Selenium自动化获取页面信息的方法的文章就介绍到这了,更多相关Python Selenium 获取页面信息内容请搜索易盾网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持易盾网络!

如何使用Python Selenium高效提取网页数据?