如何使用Python爬虫中的XPath语言提取数据?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2793个文字,预计阅读时间需要12分钟。
XPath(XML路径语言)是XML文档的路径语言,用于定位XML文档中的特定部分。学习目标是将HTML转换为XML文档后,使用XPath查找HTML节点或元素,例如使用/来表示上下层级的结构。
XPath 语言
XPath(XML Path Language)是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。
学习目的
将HTML转换成XML文档之后,用XPath查找HTML节点或元素
比如用“/”来作为上下层级间的分隔,第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而是指文档本身)。
比如对于一个HTML文件来说,最外层的节点应该是"/html"。
XPath开发工具
- 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
- chrome插件 XPath Helper
- 直接在console里面输入$x("xpath选择器")
- firefox插件 XPath Checker
XPath语法参考文档:
www.w3school.com.cn/xpath/index.asp
XPath语法
XPath 是一门在 XML 文档中查找信息的语言。
XPath 可用来在 XML 文档中对元素和属性进行遍历。
本文共计2793个文字,预计阅读时间需要12分钟。
XPath(XML路径语言)是XML文档的路径语言,用于定位XML文档中的特定部分。学习目标是将HTML转换为XML文档后,使用XPath查找HTML节点或元素,例如使用/来表示上下层级的结构。
XPath 语言
XPath(XML Path Language)是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。
学习目的
将HTML转换成XML文档之后,用XPath查找HTML节点或元素
比如用“/”来作为上下层级间的分隔,第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而是指文档本身)。
比如对于一个HTML文件来说,最外层的节点应该是"/html"。
XPath开发工具
- 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
- chrome插件 XPath Helper
- 直接在console里面输入$x("xpath选择器")
- firefox插件 XPath Checker
XPath语法参考文档:
www.w3school.com.cn/xpath/index.asp
XPath语法
XPath 是一门在 XML 文档中查找信息的语言。
XPath 可用来在 XML 文档中对元素和属性进行遍历。

