如何用BeautifulSoup和xpath提取网页长尾关键词?
- 内容介绍
- 文章标签
- 相关推荐
本文共计610个文字,预计阅读时间需要3分钟。
前言:使用requests请求并获取数据后,通常采用两种常用方法(BeautifulSoup和xpath)来解析数据。以下以某房管局数据为例,分别使用不同的方法解析数据。
一、xpath方法:pythonfrom lxml import etree
e=etree.HTML(_content) # _content为获取的HTML内容data=e.xpath('//div[@class=data]//a/text()') # 假设数据在标签下的标签中print(data)
二、BeautifulSoup方法:pythonfrom bs4 import BeautifulSoup
soup=BeautifulSoup(_content, '.parser')data=soup.find_all('div', class_='data').find_all('a').textprint(data)
前言:requests请求并获取数据后,解析数据通常用两种方法(BeautifulSoup和xpath),下面以某房chan数据有例子,分别使用不同的方法解析数据。
一、xpath方法:
from lxml import etreee = etree.HTML(resp.text)names = [n.strip() for n in e.xpath("//div[@class='nlcd_name']/a/text()")]二、BeautifulSoup方法:
from bs4 import BeautifulSoup bs = BeautifulSoup(resp.text, 'html.parser') nl_con = bs.find("div", class_='nl_con clearfix') li_list = nl_con.find_all("li") lst = [] for item in li_list: names = item.find('div', class_="nlcd_name")个人比较喜欢用BeautifulSoup方法,一是BeautifulSoup方法接触比较早,而且BeautifulSoup方法可以跟re方法结合使用。非常灵活方便。
详细实例:
本文共计610个文字,预计阅读时间需要3分钟。
前言:使用requests请求并获取数据后,通常采用两种常用方法(BeautifulSoup和xpath)来解析数据。以下以某房管局数据为例,分别使用不同的方法解析数据。
一、xpath方法:pythonfrom lxml import etree
e=etree.HTML(_content) # _content为获取的HTML内容data=e.xpath('//div[@class=data]//a/text()') # 假设数据在标签下的标签中print(data)
二、BeautifulSoup方法:pythonfrom bs4 import BeautifulSoup
soup=BeautifulSoup(_content, '.parser')data=soup.find_all('div', class_='data').find_all('a').textprint(data)
前言:requests请求并获取数据后,解析数据通常用两种方法(BeautifulSoup和xpath),下面以某房chan数据有例子,分别使用不同的方法解析数据。
一、xpath方法:
from lxml import etreee = etree.HTML(resp.text)names = [n.strip() for n in e.xpath("//div[@class='nlcd_name']/a/text()")]二、BeautifulSoup方法:
from bs4 import BeautifulSoup bs = BeautifulSoup(resp.text, 'html.parser') nl_con = bs.find("div", class_='nl_con clearfix') li_list = nl_con.find_all("li") lst = [] for item in li_list: names = item.find('div', class_="nlcd_name")个人比较喜欢用BeautifulSoup方法,一是BeautifulSoup方法接触比较早,而且BeautifulSoup方法可以跟re方法结合使用。非常灵活方便。
详细实例:

