Python爬虫内建模块中,如何运用XML和HTMLParser进行基础学习?

2026-06-10 19:235阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计930个文字,预计阅读时间需要4分钟。

Python爬虫内建模块中,如何运用XML和HTMLParser进行基础学习?

XML虽然比JSON复杂,但在Web应用中应用广泛,仍有许多地方在使用。因此,有必要了解如何操作XML。

DOM与SAX:操作XML有两种方法:DOM和SAX。

DOM将整个XML读入内存,解析为树结构。

SAX按顺序解析XML,逐个处理节点。

1.XML

XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML。

DOM vs SAX

操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。

正常情况下,优先考虑SAX,因为DOM实在太占内存。

在Python中使用SAX解析XML非常简洁,通常我们关心的事件是​​start_element​​​,​​end_element​​​和​​char_data​​,准备好这3个函数,然后就可以解析xml了。

阅读全文

本文共计930个文字,预计阅读时间需要4分钟。

Python爬虫内建模块中,如何运用XML和HTMLParser进行基础学习?

XML虽然比JSON复杂,但在Web应用中应用广泛,仍有许多地方在使用。因此,有必要了解如何操作XML。

DOM与SAX:操作XML有两种方法:DOM和SAX。

DOM将整个XML读入内存,解析为树结构。

SAX按顺序解析XML,逐个处理节点。

1.XML

XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML。

DOM vs SAX

操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。

正常情况下,优先考虑SAX,因为DOM实在太占内存。

在Python中使用SAX解析XML非常简洁,通常我们关心的事件是​​start_element​​​,​​end_element​​​和​​char_data​​,准备好这3个函数,然后就可以解析xml了。

阅读全文