Python爬虫内建模块中,如何运用XML和HTMLParser进行基础学习?
- 内容介绍
- 文章标签
- 相关推荐
本文共计930个文字,预计阅读时间需要4分钟。
XML虽然比JSON复杂,但在Web应用中应用广泛,仍有许多地方在使用。因此,有必要了解如何操作XML。
DOM与SAX:操作XML有两种方法:DOM和SAX。
DOM将整个XML读入内存,解析为树结构。
SAX按顺序解析XML,逐个处理节点。
1.XML
XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML。
DOM vs SAX
操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。
正常情况下,优先考虑SAX,因为DOM实在太占内存。
在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_element,end_element和char_data,准备好这3个函数,然后就可以解析xml了。
本文共计930个文字,预计阅读时间需要4分钟。
XML虽然比JSON复杂,但在Web应用中应用广泛,仍有许多地方在使用。因此,有必要了解如何操作XML。
DOM与SAX:操作XML有两种方法:DOM和SAX。
DOM将整个XML读入内存,解析为树结构。
SAX按顺序解析XML,逐个处理节点。
1.XML
XML虽然比JSON复杂,在Web中应用也不如以前多了,不过仍有很多地方在用,所以,有必要了解如何操作XML。
DOM vs SAX
操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。
正常情况下,优先考虑SAX,因为DOM实在太占内存。
在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start_element,end_element和char_data,准备好这3个函数,然后就可以解析xml了。

