如何入门使用Python ElementTree模块进行XML操作?

2026-04-29 13:153阅读0评论SEO问题
  • 内容介绍
  • 相关推荐

本文共计932个文字,预计阅读时间需要4分钟。

如何入门使用Python ElementTree模块进行XML操作?

不是它不能,而是默认忽略命名空间空间 — 所有的带有 xmlns 或前缀(如 ns:tag)的节点,在未明确声明时会被当作普通标签处理,find() 和 findall() 会直接找不到。

  • 必须把命名空间映射成字典,例如:{'ns': 'http://example.com/ns'}
  • 所有 XPath 查询中,标签名前要加前缀:'.//ns:item',不能写 './/item'
  • root.findall('.//ns:item', ns_map),其中 ns_map 是命名空间字典
  • 如果 XML 中是默认命名空间(xmlns="http://..."),前缀不能为空字符串,得设一个占位符,比如 {'d': 'http://...'},再查 './/d:tag'

ElementTree.parse()ParseError: not well-formed 怎么办?

常见于文件含 BOM、编码不匹配或混入控制字符。Python 3 默认按 UTF-8 解析,但 Windows 记事本保存的 XML 常带 UTF-8 BOM,而 parse() 不自动跳过。

  • 先用 open(filename, 'rb') 读二进制,再用 etree.fromstring() 配合 encoding='utf-8-sig'(注意:这是 xml.etree.ElementTree 不支持的参数,得换用 lxml.etree;标准库只能手动 strip BOM)
  • 更稳妥的做法:用 open(filename, encoding='utf-8-sig') 读文本,再传给 ET.fromstring()
  • 检查是否误把 HTML 当 XML 解析 ——  © 等实体在 XML 中不被识别,会直接报错
  • file.read(100) 快速看开头是否有非法字符(如 \x00\xff\xfe

如何安全地修改并写回 XML,避免格式崩坏?

ElementTree 默认不保留空白、缩进和注释,直接 tree.write() 会导致结构扁平化、换行消失,甚至破坏人可读性。

  • 写入前务必指定 encodingxml_declaration=True,否则中文可能变乱码,且无 XML 声明头
  • 不要依赖 indent() —— 它是 Python 3.9+ 才加入的,旧版本需手动遍历加 tailtext
  • 若需保留原始缩进/注释,标准库做不到,应改用 lxml.etree,它支持 pretty_print=True 和完整 DTD/注释解析
  • 写文件时用 open(..., 'wb'),因为 write() 输出的是 bytes,不是 str

tree.write('output.xml', encoding='utf-8', xml_declaration=True)

.find() 找不到子元素?检查这三件事

看似简单,却是新手最高频的卡点。根本原因往往不在语法,而在树结构认知偏差。

立即学习“Python免费学习笔记(深入)”;

  • .find() 只查**直接子元素**,不是全树搜索 —— 想查任意层级用 .findall('.//tagname')
  • XML 是大小写敏感的:<item></item><item></item>,连空格都不能多一个
  • 元素可能被包裹在 <root> 下,但你对的是 tree.getroot(),却调用了 tree.find('item')(错误!应是 root.find('item')
命名空间、编码、查找范围、输出格式 —— 这四块最容易让代码“看起来没错,跑起来就空或报错”。尤其当 XML 来自外部系统(如 SOAP 响应、配置导出),别假设结构干净,先 print(etree.tostring(root, encoding='unicode')) 看一眼真实 DOM 树。

本文共计932个文字,预计阅读时间需要4分钟。

如何入门使用Python ElementTree模块进行XML操作?

不是它不能,而是默认忽略命名空间空间 — 所有的带有 xmlns 或前缀(如 ns:tag)的节点,在未明确声明时会被当作普通标签处理,find() 和 findall() 会直接找不到。

  • 必须把命名空间映射成字典,例如:{'ns': 'http://example.com/ns'}
  • 所有 XPath 查询中,标签名前要加前缀:'.//ns:item',不能写 './/item'
  • root.findall('.//ns:item', ns_map),其中 ns_map 是命名空间字典
  • 如果 XML 中是默认命名空间(xmlns="http://..."),前缀不能为空字符串,得设一个占位符,比如 {'d': 'http://...'},再查 './/d:tag'

ElementTree.parse()ParseError: not well-formed 怎么办?

常见于文件含 BOM、编码不匹配或混入控制字符。Python 3 默认按 UTF-8 解析,但 Windows 记事本保存的 XML 常带 UTF-8 BOM,而 parse() 不自动跳过。

  • 先用 open(filename, 'rb') 读二进制,再用 etree.fromstring() 配合 encoding='utf-8-sig'(注意:这是 xml.etree.ElementTree 不支持的参数,得换用 lxml.etree;标准库只能手动 strip BOM)
  • 更稳妥的做法:用 open(filename, encoding='utf-8-sig') 读文本,再传给 ET.fromstring()
  • 检查是否误把 HTML 当 XML 解析 ——  © 等实体在 XML 中不被识别,会直接报错
  • file.read(100) 快速看开头是否有非法字符(如 \x00\xff\xfe

如何安全地修改并写回 XML,避免格式崩坏?

ElementTree 默认不保留空白、缩进和注释,直接 tree.write() 会导致结构扁平化、换行消失,甚至破坏人可读性。

  • 写入前务必指定 encodingxml_declaration=True,否则中文可能变乱码,且无 XML 声明头
  • 不要依赖 indent() —— 它是 Python 3.9+ 才加入的,旧版本需手动遍历加 tailtext
  • 若需保留原始缩进/注释,标准库做不到,应改用 lxml.etree,它支持 pretty_print=True 和完整 DTD/注释解析
  • 写文件时用 open(..., 'wb'),因为 write() 输出的是 bytes,不是 str

tree.write('output.xml', encoding='utf-8', xml_declaration=True)

.find() 找不到子元素?检查这三件事

看似简单,却是新手最高频的卡点。根本原因往往不在语法,而在树结构认知偏差。

立即学习“Python免费学习笔记(深入)”;

  • .find() 只查**直接子元素**,不是全树搜索 —— 想查任意层级用 .findall('.//tagname')
  • XML 是大小写敏感的:<item></item><item></item>,连空格都不能多一个
  • 元素可能被包裹在 <root> 下,但你对的是 tree.getroot(),却调用了 tree.find('item')(错误!应是 root.find('item')
命名空间、编码、查找范围、输出格式 —— 这四块最容易让代码“看起来没错,跑起来就空或报错”。尤其当 XML 来自外部系统(如 SOAP 响应、配置导出),别假设结构干净,先 print(etree.tostring(root, encoding='unicode')) 看一眼真实 DOM 树。