如何通过正则表达式实现特定文本匹配?
- 内容介绍
- 相关推荐
本文共计936个文字,预计阅读时间需要4分钟。
Python 3.6+ 支持 (?)
正确写法只有这一种:r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})"。注意是 <(小于号),不是 (HTML 小于号),别被编辑器自动转义坑了。
- 命名只能含 ASCII 字母、数字、下划线,不能以数字开头(
(?<1year>...)非法) - 同一正则中名字不能重复(
(?<id>\d+)(?<id>\w+)报错) - 如果用
re.compile()预编译,命名组名会保留在pattern.groupindex中,方便调试
提取结果怎么从 match.group(1) 变成 match.group("year")
命名后,.group() 接字符串参数就能按名取值,比靠序号更稳定——改正则时加删前面的组,序号全乱,但名字不变。
比如匹配日期:re.search(r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})", "2023-04-15"),之后可直接写:
match = re.search(r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})", "2023-04-15") print(match.group("year")) # "2023" print(match.group("month")) # "04"
注意:match.groupdict() 会返回一个字典,键就是命名,值是对应匹配字符串,适合传给 **kwargs 或构造数据类。
JavaScript 的 (?<name>...) 和 Python 有啥关键差异
JS 的命名捕获组语法一样,但支持程度取决于运行环境:Node.js 10.0+、Chrome 64+、Firefox 78+ 才完全支持。低版本会直接报 SyntaxError: Invalid regular expression。
更大的区别在 API 层:RegExp.exec() 返回的数组多了 .groups 属性,而 Python 是挂载在 Match 对象上。
- JS:
const m = /(?<hour>\d{2}):(?<min>\d{2})/.exec("14:30"); console.log(m.groups.hour); // "14" - Python:
m = re.search(r"(?<hour>\d{2}):(?<min>\d{2})", "14:30"); print(m.group("hour")) - JS 不支持
String.prototype.matchAll()返回带.groups的迭代器(需手动映射),而 Python 的re.finditer()每个 Match 都自带命名访问
命名组嵌套或复用时容易忽略的边界问题
命名组本身不支持嵌套((?<a>(?<b>...)) 合法,但 b 不是 a 的子组,只是普通嵌套),真正容易出错的是「重名」和「未匹配」场景。
比如:r"(?<id>\d+)|(?<name>\w+)" 匹配 "123" 时,match.group("name") 不是空字符串,而是 None——这点和位置组不同(match.group(2) 也是 None),但开发者常误以为会返回空串。
- 判断某命名组是否匹配成功,要用
match.group("name") is not None,别用if match.group("name"): - 如果正则里用了
?量词让命名组可选(如(?<ext>\.\w+)?),没匹配到时同样返回None - 想统一处理缺失情况,可配合
match.groupdict(default="")(Python 3.11+),旧版得自己.get("name", "")
名字再好听,也救不了没匹配上的组;可读性提升的前提,是先确保它真能被取到。
本文共计936个文字,预计阅读时间需要4分钟。
Python 3.6+ 支持 (?)
正确写法只有这一种:r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})"。注意是 <(小于号),不是 (HTML 小于号),别被编辑器自动转义坑了。
- 命名只能含 ASCII 字母、数字、下划线,不能以数字开头(
(?<1year>...)非法) - 同一正则中名字不能重复(
(?<id>\d+)(?<id>\w+)报错) - 如果用
re.compile()预编译,命名组名会保留在pattern.groupindex中,方便调试
提取结果怎么从 match.group(1) 变成 match.group("year")
命名后,.group() 接字符串参数就能按名取值,比靠序号更稳定——改正则时加删前面的组,序号全乱,但名字不变。
比如匹配日期:re.search(r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})", "2023-04-15"),之后可直接写:
match = re.search(r"(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})", "2023-04-15") print(match.group("year")) # "2023" print(match.group("month")) # "04"
注意:match.groupdict() 会返回一个字典,键就是命名,值是对应匹配字符串,适合传给 **kwargs 或构造数据类。
JavaScript 的 (?<name>...) 和 Python 有啥关键差异
JS 的命名捕获组语法一样,但支持程度取决于运行环境:Node.js 10.0+、Chrome 64+、Firefox 78+ 才完全支持。低版本会直接报 SyntaxError: Invalid regular expression。
更大的区别在 API 层:RegExp.exec() 返回的数组多了 .groups 属性,而 Python 是挂载在 Match 对象上。
- JS:
const m = /(?<hour>\d{2}):(?<min>\d{2})/.exec("14:30"); console.log(m.groups.hour); // "14" - Python:
m = re.search(r"(?<hour>\d{2}):(?<min>\d{2})", "14:30"); print(m.group("hour")) - JS 不支持
String.prototype.matchAll()返回带.groups的迭代器(需手动映射),而 Python 的re.finditer()每个 Match 都自带命名访问
命名组嵌套或复用时容易忽略的边界问题
命名组本身不支持嵌套((?<a>(?<b>...)) 合法,但 b 不是 a 的子组,只是普通嵌套),真正容易出错的是「重名」和「未匹配」场景。
比如:r"(?<id>\d+)|(?<name>\w+)" 匹配 "123" 时,match.group("name") 不是空字符串,而是 None——这点和位置组不同(match.group(2) 也是 None),但开发者常误以为会返回空串。
- 判断某命名组是否匹配成功,要用
match.group("name") is not None,别用if match.group("name"): - 如果正则里用了
?量词让命名组可选(如(?<ext>\.\w+)?),没匹配到时同样返回None - 想统一处理缺失情况,可配合
match.groupdict(default="")(Python 3.11+),旧版得自己.get("name", "")
名字再好听,也救不了没匹配上的组;可读性提升的前提,是先确保它真能被取到。

