Python中re模块如何用于正则表达式操作?
- 内容介绍
- 文章标签
- 相关推荐
本文共计4058个文字,预计阅读时间需要17分钟。
为什么学习正则表达式?实际上,爬虫一般遵循以下四个主要步骤:明确目标(要知道你打算在哪个范围或网站搜索)、爬(将所有网站内容爬下来)、取(去除无用数据)、处理。
为什么要学正则表达式
实际上爬虫一共就四个主要步骤:
我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。
那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。
什么是正则表达式
正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
本文共计4058个文字,预计阅读时间需要17分钟。
为什么学习正则表达式?实际上,爬虫一般遵循以下四个主要步骤:明确目标(要知道你打算在哪个范围或网站搜索)、爬(将所有网站内容爬下来)、取(去除无用数据)、处理。
为什么要学正则表达式
实际上爬虫一共就四个主要步骤:
我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。
那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。
什么是正则表达式
正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

