如何详细学习Python中Beautiful Soup4库的使用技巧?

2026-05-26 16:162阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计1647个文字,预计阅读时间需要7分钟。

如何详细学习Python中Beautiful Soup4库的使用技巧?

XPath的使用 + 点击 + 跳转 + 转换 + 使用Beautiful Soup4从HTML源代码中提取有用信息 + 简介及语法讲解 + find和find_all + select + 简介及BeautifulSoup4(BS4)是XPath在网页爬虫中的应用



XPath的使用​​点击跳转​​


如何详细学习Python中Beautiful Soup4库的使用技巧?


使用Beautiful Soup4从HTML源代码中提取有用的信息

  • ​​简介​​
  • ​​语法讲解​​
  • ​​find和find_all​​
  • ​​select​​



简介

​​​BeautifulSoup4(BS4)​​是​​Python​​的一个第三方库,用来从​​HTML​​和​​XML​​中提取数据。​

​​​BeautifulSoup4​​在某些方面比​​XPath​​易懂,但是不如​​XPath​​简洁,而且由于它是使用​​Python​​开发的,因此速度比​​XPath​​慢。​

​使用​​pip​​命令安装:​​pip install beautifulsoup4​​​

​安装后,切换到​​Python​​的交互窗口,输入​​from bs4 import BeautifulSoup​​,如果没有报错则说明安装成功​

语法讲解

​使用​​Beautiful Soup4​​提取​​HTML​​内容,一般要经过以下两步。​

  • ​处理源代码生成​​BeautifulSoup​​对象。​
  • ​使用​​find_all()​​或者​​find()​​来查找内容。​

​源代码解析​

  • ​解析源代码生成​​BeautifulSoup​​对象,使用以下的代码格式​
  • soup = BeautifulSoup(网页源代码,'解析器')
  • ​这里的解析器可以写成​​html.parser​​,如果你安装了​​lxml​​,还可以写成​​lxml​​​
  • soup = BeautifulSoup(source, 'lxml')
    soup = BeautifulSoup(source, 'html.parser')

find和find_all

​​​find​​和​​find_all​​的区别就是前者会返回第一个满足条件的数据,后者返回全部满足条件的数据​

​查找内容​

  • ​查找内容的基本流程和使用​​XPath​​非常相似。首先要找到包含特殊属性值的标签,并使用这个标签来寻找内容。​

  • ​假设需要获取“我需要的信息2”,由于这个信息所在​​< li >​​标签的​​class​​属性的值为“​​test​​”,这个值本身就很特殊,因此可以直接通过这个值来进行定位.​

    from bs4 import BeautifulSoup

    source = '''
    <html>
    <head>
    <title>测试</title>
    </head>
    <body>
    <div class="useful">
    <ul>
    <li class="info">我需要的信息1</li>
    <li class="test">我需要的信息2</li>
    <li class="iamstrange">我需要的信息3</li>
    </ul>
    </div>

    <div class="useless">
    <ul>
    <li class="info">垃圾1</li>
    <li class="info">垃圾2</li>
    </ul>
    </div>
    </body>
    </html>
    '''
    soup = BeautifulSoup(source, 'lxml')
    # soup = BeautifulSoup(source, 'html.parser')

    info = soup.find(class_='test')
    print(f'返回的数据类型是{type(info)}')
    print(info.string)

  • ​由于​​HTML​​中的​​class​​属性与​​Python​​的​​class​​关键字相同,因此为了不产生冲突,​​BS4​​规定,如果遇到要查询​​class​​的情况,使用“​​class_​​”来代替。在查询HTML代码时,​​class​​属性的属性值为“​​test​​”的标签,得到​​find()​​方法返回的​​BeautifulSoupTag​​对象。可以直接通过​​.string​​属性就可以读出标签中的文字信息。​

  • ​如果需要获取​​useful​​下的全部数据,先抓大再抓小依旧有效​

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
    print(li.string)

  • ​找到以我需要开头的信息​

    content = soup.find_all(text=re.compile('我需要'))
    for each in content:
    print(each.string)
  • ​对属性值的搜索也可以使用正则​

    content = soup.find_all(class_=re.compile('iam'))
    for each in content:
    print(each.string)
  • ​除了获取标签里面的文本外,​​BS4​​也可以获取标签里面的属性值。如果想获取某个属性值,可以将​​BeautifulSoup Tag​​对象看成字典,将属性名当作​​Key​​,返回的结果为列表​

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
    print(li['class'])

​​跳转顶部​​


select

​​​select​​的功能跟​​find​​和​​find_all​​ 一样用来选取特定的标签,它的选取规则依赖于​​css​​,我们把它叫做​​css​​选择器​

​通过标签查找,返回含有此标签的语句会按照列表的形式返回​

li_list = soup.select('li')
print(li_list)


​通过类名来查找​

class_test = soup.select('.test')
print(class_test)


​通过​​id​​名查找​

​我们将上面的​​HTML​​代码稍作修改​

<html>
<head>
<title>测试</title>
</head>
<body>
<div class="useful">
<ul>
<li class="info">我需要的信息1</li>
<li class="test">我需要的信息2</li>
<li class="iamstrange">我需要的信息3</li>
</ul>
</div>

<div class="useless">
<ul>
<li class="id">垃圾1</li>
<li class="id">垃圾2</li>
</ul>
</div>
</body>
</html>id_info1 = soup.select('#info1')


​组合查找​

  • ​组合查找,即是可以把标签名和类名、标签名和id名组合,但是中间要用空格隔开,组合查找,先查找满足标签的语句,再接着查找该语句下满足类名或者id的语句​

    li_class = soup.select('ul .test')
    print(li_class)
    li_id = soup.select('ul #info1')
    print(li_id)


​子标签查找​

div_ul_li = soup.select('div > ul > li')
div_ul_li_id_info1 = soup.select('div > ul #info1')
print(div_ul_li)
print(div_ul_li_id_info1)


​属性查找​

  • ​查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。​
  • data = soup.select('ul li[class="test"]')
    print(data)

​​跳转顶部​​



本文共计1647个文字,预计阅读时间需要7分钟。

如何详细学习Python中Beautiful Soup4库的使用技巧?

XPath的使用 + 点击 + 跳转 + 转换 + 使用Beautiful Soup4从HTML源代码中提取有用信息 + 简介及语法讲解 + find和find_all + select + 简介及BeautifulSoup4(BS4)是XPath在网页爬虫中的应用



XPath的使用​​点击跳转​​


如何详细学习Python中Beautiful Soup4库的使用技巧?


使用Beautiful Soup4从HTML源代码中提取有用的信息

  • ​​简介​​
  • ​​语法讲解​​
  • ​​find和find_all​​
  • ​​select​​



简介

​​​BeautifulSoup4(BS4)​​是​​Python​​的一个第三方库,用来从​​HTML​​和​​XML​​中提取数据。​

​​​BeautifulSoup4​​在某些方面比​​XPath​​易懂,但是不如​​XPath​​简洁,而且由于它是使用​​Python​​开发的,因此速度比​​XPath​​慢。​

​使用​​pip​​命令安装:​​pip install beautifulsoup4​​​

​安装后,切换到​​Python​​的交互窗口,输入​​from bs4 import BeautifulSoup​​,如果没有报错则说明安装成功​

语法讲解

​使用​​Beautiful Soup4​​提取​​HTML​​内容,一般要经过以下两步。​

  • ​处理源代码生成​​BeautifulSoup​​对象。​
  • ​使用​​find_all()​​或者​​find()​​来查找内容。​

​源代码解析​

  • ​解析源代码生成​​BeautifulSoup​​对象,使用以下的代码格式​
  • soup = BeautifulSoup(网页源代码,'解析器')
  • ​这里的解析器可以写成​​html.parser​​,如果你安装了​​lxml​​,还可以写成​​lxml​​​
  • soup = BeautifulSoup(source, 'lxml')
    soup = BeautifulSoup(source, 'html.parser')

find和find_all

​​​find​​和​​find_all​​的区别就是前者会返回第一个满足条件的数据,后者返回全部满足条件的数据​

​查找内容​

  • ​查找内容的基本流程和使用​​XPath​​非常相似。首先要找到包含特殊属性值的标签,并使用这个标签来寻找内容。​

  • ​假设需要获取“我需要的信息2”,由于这个信息所在​​< li >​​标签的​​class​​属性的值为“​​test​​”,这个值本身就很特殊,因此可以直接通过这个值来进行定位.​

    from bs4 import BeautifulSoup

    source = '''
    <html>
    <head>
    <title>测试</title>
    </head>
    <body>
    <div class="useful">
    <ul>
    <li class="info">我需要的信息1</li>
    <li class="test">我需要的信息2</li>
    <li class="iamstrange">我需要的信息3</li>
    </ul>
    </div>

    <div class="useless">
    <ul>
    <li class="info">垃圾1</li>
    <li class="info">垃圾2</li>
    </ul>
    </div>
    </body>
    </html>
    '''
    soup = BeautifulSoup(source, 'lxml')
    # soup = BeautifulSoup(source, 'html.parser')

    info = soup.find(class_='test')
    print(f'返回的数据类型是{type(info)}')
    print(info.string)

  • ​由于​​HTML​​中的​​class​​属性与​​Python​​的​​class​​关键字相同,因此为了不产生冲突,​​BS4​​规定,如果遇到要查询​​class​​的情况,使用“​​class_​​”来代替。在查询HTML代码时,​​class​​属性的属性值为“​​test​​”的标签,得到​​find()​​方法返回的​​BeautifulSoupTag​​对象。可以直接通过​​.string​​属性就可以读出标签中的文字信息。​

  • ​如果需要获取​​useful​​下的全部数据,先抓大再抓小依旧有效​

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
    print(li.string)

  • ​找到以我需要开头的信息​

    content = soup.find_all(text=re.compile('我需要'))
    for each in content:
    print(each.string)
  • ​对属性值的搜索也可以使用正则​

    content = soup.find_all(class_=re.compile('iam'))
    for each in content:
    print(each.string)
  • ​除了获取标签里面的文本外,​​BS4​​也可以获取标签里面的属性值。如果想获取某个属性值,可以将​​BeautifulSoup Tag​​对象看成字典,将属性名当作​​Key​​,返回的结果为列表​

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
    print(li['class'])

​​跳转顶部​​


select

​​​select​​的功能跟​​find​​和​​find_all​​ 一样用来选取特定的标签,它的选取规则依赖于​​css​​,我们把它叫做​​css​​选择器​

​通过标签查找,返回含有此标签的语句会按照列表的形式返回​

li_list = soup.select('li')
print(li_list)


​通过类名来查找​

class_test = soup.select('.test')
print(class_test)


​通过​​id​​名查找​

​我们将上面的​​HTML​​代码稍作修改​

<html>
<head>
<title>测试</title>
</head>
<body>
<div class="useful">
<ul>
<li class="info">我需要的信息1</li>
<li class="test">我需要的信息2</li>
<li class="iamstrange">我需要的信息3</li>
</ul>
</div>

<div class="useless">
<ul>
<li class="id">垃圾1</li>
<li class="id">垃圾2</li>
</ul>
</div>
</body>
</html>id_info1 = soup.select('#info1')


​组合查找​

  • ​组合查找,即是可以把标签名和类名、标签名和id名组合,但是中间要用空格隔开,组合查找,先查找满足标签的语句,再接着查找该语句下满足类名或者id的语句​

    li_class = soup.select('ul .test')
    print(li_class)
    li_id = soup.select('ul #info1')
    print(li_id)


​子标签查找​

div_ul_li = soup.select('div > ul > li')
div_ul_li_id_info1 = soup.select('div > ul #info1')
print(div_ul_li)
print(div_ul_li_id_info1)


​属性查找​

  • ​查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。​
  • data = soup.select('ul li[class="test"]')
    print(data)

​​跳转顶部​​