如何使用Python xml.etree.ElementTree向CDATA区段添加内容?

2026-04-29 13:212阅读0评论SEO基础
  • 内容介绍
  • 相关推荐

本文共计1094个文字,预计阅读时间需要5分钟。

如何使用Python xml.etree.ElementTree向CDATA区段添加内容?

ElementTree的设计哲学是将XML当作数据结构来处理,而非文本模板引擎。它不原生支持CDATA,因此所有文本内容(包括element.text和element.tail)都会被自动转换。例如:

常见错误现象:
– 直接赋值 elem.text = "hello]]>",结果输出是 hello]]>
– 用 etree.tostring() 看到的是双重转义的垃圾

这不是 bug,是设计使然。想绕过转义,得干预序列化过程本身。

用 _serialize_xml 钩子注入 CDATA(Python 3.8+ 安全方案)

Python 3.8 起,xml.etree.ElementTree 允许通过注册自定义序列化器来接管特定标签的输出逻辑。这是目前最干净、不破坏 ElementTree 正常行为的方式。

立即学习“Python免费学习笔记(深入)”;

实操建议:

  • 定义一个标记 CDATA 内容的特殊文本对象(比如用 type 区分),避免污染原始字符串
  • 重写 _serialize_xml 函数,在遇到该类型时跳过转义,直接输出
  • 必须用 register_namespace 或显式设置 default_namespace 避免命名空间干扰
  • 调用 etree.tostring() 时传入 method="xml"(默认就是),否则钩子不触发

示例关键片段:

from xml.etree import ElementTree as ET <p>class CDATA: def <strong>init</strong>(self, text): self.text = text</p><p>def _serialize_cdata(write, elem, qnames, namespaces, short_empty_elements): if isinstance(elem.text, CDATA): write("<![CDATA[") write(elem.text.text) write("]]>") else:</p><h1>fallback to default</h1><pre class='brush:php;toolbar:false;'> _original_serialize(write, elem, qnames, namespaces, short_empty_elements)

替换内置序列化器(仅影响当前 etree 模块)

_original_serialize = ET._serialize_xml ET._serialize_xml = _serialize_cdata

使用

root = ET.Element("root") child = ET.SubElement(root, "content") child.text = CDATA("<script>alert(1)</script>") print(ET.tostring(root, encoding="unicode"))

输出:<![CDATA[<script>alert(1)</script>]]>

老版本 Python(

Python 3.7 及更早版本没开放序列化钩子,强行改 _escape 函数风险高:它被多处调用,改错会导致整个 etree 不稳定;且 _escape 是 C 实现的私有函数,不同发行版行为可能不一致。

更现实的选择是切换解析器:

  • xml.dom.minidom:支持 createCDATASection(),API 明确,但内存占用大、速度慢,适合小文件
  • 用第三方库如 lxml:提供 etree.CDATA() 工厂函数,行为稳定,但引入新依赖
  • 纯字符串拼接(仅限简单场景):手动构造 XML 字符串,跳过 etree 序列化,但失去树操作能力,容易出错

注意:minidomtoxml() 默认带缩进和换行,若需紧凑输出要传 encoding="utf-8" 并自己 strip(),且不支持 namespace 前缀自动声明。

CDATA 内容里不能出现 ]]>,否则会提前闭合

这是 XML 规范硬性限制,和 Python 实现无关。哪怕你用 lxmlminidom,只要最终生成的字符串含 ]]>(连续三个字符),解析器就会认为 CDATA 结束,后面内容变成普通文本或报错。

常见踩坑点:

  • 用户输入里带 ]]>(比如代码示例、正则表达式、注释)没做预处理
  • 拼接多个 CDATA 片段时,中间漏了分隔符,导致 ]]><![CDATA[ 连在一起
  • 误以为 CDATA 是“万能 HTML 注入区”,实际它只是跳过解析,不解决 XSS,也不改变语义

安全做法:对原始内容做一次替换,比如把 ]]> 拆成 ]]><![CDATA[(即闭合 + 新开),或统一替换成编码形式(如 \u301D 等 Unicode 替代符),前提是消费方能对应解码。

这事没法靠 ElementTree 自动兜底,必须在塞进 CDATA 前手动检查。

本文共计1094个文字,预计阅读时间需要5分钟。

如何使用Python xml.etree.ElementTree向CDATA区段添加内容?

ElementTree的设计哲学是将XML当作数据结构来处理,而非文本模板引擎。它不原生支持CDATA,因此所有文本内容(包括element.text和element.tail)都会被自动转换。例如:

常见错误现象:
– 直接赋值 elem.text = "hello]]>",结果输出是 hello]]>
– 用 etree.tostring() 看到的是双重转义的垃圾

这不是 bug,是设计使然。想绕过转义,得干预序列化过程本身。

用 _serialize_xml 钩子注入 CDATA(Python 3.8+ 安全方案)

Python 3.8 起,xml.etree.ElementTree 允许通过注册自定义序列化器来接管特定标签的输出逻辑。这是目前最干净、不破坏 ElementTree 正常行为的方式。

立即学习“Python免费学习笔记(深入)”;

实操建议:

  • 定义一个标记 CDATA 内容的特殊文本对象(比如用 type 区分),避免污染原始字符串
  • 重写 _serialize_xml 函数,在遇到该类型时跳过转义,直接输出
  • 必须用 register_namespace 或显式设置 default_namespace 避免命名空间干扰
  • 调用 etree.tostring() 时传入 method="xml"(默认就是),否则钩子不触发

示例关键片段:

from xml.etree import ElementTree as ET <p>class CDATA: def <strong>init</strong>(self, text): self.text = text</p><p>def _serialize_cdata(write, elem, qnames, namespaces, short_empty_elements): if isinstance(elem.text, CDATA): write("<![CDATA[") write(elem.text.text) write("]]>") else:</p><h1>fallback to default</h1><pre class='brush:php;toolbar:false;'> _original_serialize(write, elem, qnames, namespaces, short_empty_elements)

替换内置序列化器(仅影响当前 etree 模块)

_original_serialize = ET._serialize_xml ET._serialize_xml = _serialize_cdata

使用

root = ET.Element("root") child = ET.SubElement(root, "content") child.text = CDATA("<script>alert(1)</script>") print(ET.tostring(root, encoding="unicode"))

输出:<![CDATA[<script>alert(1)</script>]]>

老版本 Python(

Python 3.7 及更早版本没开放序列化钩子,强行改 _escape 函数风险高:它被多处调用,改错会导致整个 etree 不稳定;且 _escape 是 C 实现的私有函数,不同发行版行为可能不一致。

更现实的选择是切换解析器:

  • xml.dom.minidom:支持 createCDATASection(),API 明确,但内存占用大、速度慢,适合小文件
  • 用第三方库如 lxml:提供 etree.CDATA() 工厂函数,行为稳定,但引入新依赖
  • 纯字符串拼接(仅限简单场景):手动构造 XML 字符串,跳过 etree 序列化,但失去树操作能力,容易出错

注意:minidomtoxml() 默认带缩进和换行,若需紧凑输出要传 encoding="utf-8" 并自己 strip(),且不支持 namespace 前缀自动声明。

CDATA 内容里不能出现 ]]>,否则会提前闭合

这是 XML 规范硬性限制,和 Python 实现无关。哪怕你用 lxmlminidom,只要最终生成的字符串含 ]]>(连续三个字符),解析器就会认为 CDATA 结束,后面内容变成普通文本或报错。

常见踩坑点:

  • 用户输入里带 ]]>(比如代码示例、正则表达式、注释)没做预处理
  • 拼接多个 CDATA 片段时,中间漏了分隔符,导致 ]]><![CDATA[ 连在一起
  • 误以为 CDATA 是“万能 HTML 注入区”,实际它只是跳过解析,不解决 XSS,也不改变语义

安全做法:对原始内容做一次替换,比如把 ]]> 拆成 ]]><![CDATA[(即闭合 + 新开),或统一替换成编码形式(如 \u301D 等 Unicode 替代符),前提是消费方能对应解码。

这事没法靠 ElementTree 自动兜底,必须在塞进 CDATA 前手动检查。