如何使用Python xml.etree.ElementTree向CDATA区段添加内容?
- 内容介绍
- 相关推荐
本文共计1094个文字,预计阅读时间需要5分钟。
ElementTree的设计哲学是将XML当作数据结构来处理,而非文本模板引擎。它不原生支持CDATA,因此所有文本内容(包括element.text和element.tail)都会被自动转换。例如:
常见错误现象:
– 直接赋值 elem.text = "hello]]>",结果输出是 hello]]>
– 用 etree.tostring() 看到的是双重转义的垃圾
这不是 bug,是设计使然。想绕过转义,得干预序列化过程本身。
用 _serialize_xml 钩子注入 CDATA(Python 3.8+ 安全方案)
Python 3.8 起,xml.etree.ElementTree 允许通过注册自定义序列化器来接管特定标签的输出逻辑。这是目前最干净、不破坏 ElementTree 正常行为的方式。
立即学习“Python免费学习笔记(深入)”;
实操建议:
- 定义一个标记 CDATA 内容的特殊文本对象(比如用
type区分),避免污染原始字符串 - 重写
_serialize_xml函数,在遇到该类型时跳过转义,直接输出 - 必须用
register_namespace或显式设置default_namespace避免命名空间干扰 - 调用
etree.tostring()时传入method="xml"(默认就是),否则钩子不触发
示例关键片段:
from xml.etree import ElementTree as ET <p>class CDATA: def <strong>init</strong>(self, text): self.text = text</p><p>def _serialize_cdata(write, elem, qnames, namespaces, short_empty_elements): if isinstance(elem.text, CDATA): write("<![CDATA[") write(elem.text.text) write("]]>") else:</p><h1>fallback to default</h1><pre class='brush:php;toolbar:false;'> _original_serialize(write, elem, qnames, namespaces, short_empty_elements)
替换内置序列化器(仅影响当前 etree 模块)
_original_serialize = ET._serialize_xml ET._serialize_xml = _serialize_cdata
使用
root = ET.Element("root") child = ET.SubElement(root, "content") child.text = CDATA("<script>alert(1)</script>") print(ET.tostring(root, encoding="unicode"))
输出:<![CDATA[<script>alert(1)</script>]]>
老版本 Python(
Python 3.7 及更早版本没开放序列化钩子,强行改 _escape 函数风险高:它被多处调用,改错会导致整个 etree 不稳定;且 _escape 是 C 实现的私有函数,不同发行版行为可能不一致。
更现实的选择是切换解析器:
- 用
xml.dom.minidom:支持createCDATASection(),API 明确,但内存占用大、速度慢,适合小文件 - 用第三方库如
lxml:提供etree.CDATA()工厂函数,行为稳定,但引入新依赖 - 纯字符串拼接(仅限简单场景):手动构造 XML 字符串,跳过 etree 序列化,但失去树操作能力,容易出错
注意:minidom 的 toxml() 默认带缩进和换行,若需紧凑输出要传 encoding="utf-8" 并自己 strip(),且不支持 namespace 前缀自动声明。
CDATA 内容里不能出现 ]]>,否则会提前闭合
这是 XML 规范硬性限制,和 Python 实现无关。哪怕你用 lxml 或 minidom,只要最终生成的字符串含 ]]>(连续三个字符),解析器就会认为 CDATA 结束,后面内容变成普通文本或报错。
常见踩坑点:
- 用户输入里带
]]>(比如代码示例、正则表达式、注释)没做预处理 - 拼接多个 CDATA 片段时,中间漏了分隔符,导致
]]><![CDATA[连在一起 - 误以为 CDATA 是“万能 HTML 注入区”,实际它只是跳过解析,不解决 XSS,也不改变语义
安全做法:对原始内容做一次替换,比如把 ]]> 拆成 ]]><![CDATA[(即闭合 + 新开),或统一替换成编码形式(如 \u301D 等 Unicode 替代符),前提是消费方能对应解码。
这事没法靠 ElementTree 自动兜底,必须在塞进 CDATA 前手动检查。
本文共计1094个文字,预计阅读时间需要5分钟。
ElementTree的设计哲学是将XML当作数据结构来处理,而非文本模板引擎。它不原生支持CDATA,因此所有文本内容(包括element.text和element.tail)都会被自动转换。例如:
常见错误现象:
– 直接赋值 elem.text = "hello]]>",结果输出是 hello]]>
– 用 etree.tostring() 看到的是双重转义的垃圾
这不是 bug,是设计使然。想绕过转义,得干预序列化过程本身。
用 _serialize_xml 钩子注入 CDATA(Python 3.8+ 安全方案)
Python 3.8 起,xml.etree.ElementTree 允许通过注册自定义序列化器来接管特定标签的输出逻辑。这是目前最干净、不破坏 ElementTree 正常行为的方式。
立即学习“Python免费学习笔记(深入)”;
实操建议:
- 定义一个标记 CDATA 内容的特殊文本对象(比如用
type区分),避免污染原始字符串 - 重写
_serialize_xml函数,在遇到该类型时跳过转义,直接输出 - 必须用
register_namespace或显式设置default_namespace避免命名空间干扰 - 调用
etree.tostring()时传入method="xml"(默认就是),否则钩子不触发
示例关键片段:
from xml.etree import ElementTree as ET <p>class CDATA: def <strong>init</strong>(self, text): self.text = text</p><p>def _serialize_cdata(write, elem, qnames, namespaces, short_empty_elements): if isinstance(elem.text, CDATA): write("<![CDATA[") write(elem.text.text) write("]]>") else:</p><h1>fallback to default</h1><pre class='brush:php;toolbar:false;'> _original_serialize(write, elem, qnames, namespaces, short_empty_elements)
替换内置序列化器(仅影响当前 etree 模块)
_original_serialize = ET._serialize_xml ET._serialize_xml = _serialize_cdata
使用
root = ET.Element("root") child = ET.SubElement(root, "content") child.text = CDATA("<script>alert(1)</script>") print(ET.tostring(root, encoding="unicode"))
输出:<![CDATA[<script>alert(1)</script>]]>
老版本 Python(
Python 3.7 及更早版本没开放序列化钩子,强行改 _escape 函数风险高:它被多处调用,改错会导致整个 etree 不稳定;且 _escape 是 C 实现的私有函数,不同发行版行为可能不一致。
更现实的选择是切换解析器:
- 用
xml.dom.minidom:支持createCDATASection(),API 明确,但内存占用大、速度慢,适合小文件 - 用第三方库如
lxml:提供etree.CDATA()工厂函数,行为稳定,但引入新依赖 - 纯字符串拼接(仅限简单场景):手动构造 XML 字符串,跳过 etree 序列化,但失去树操作能力,容易出错
注意:minidom 的 toxml() 默认带缩进和换行,若需紧凑输出要传 encoding="utf-8" 并自己 strip(),且不支持 namespace 前缀自动声明。
CDATA 内容里不能出现 ]]>,否则会提前闭合
这是 XML 规范硬性限制,和 Python 实现无关。哪怕你用 lxml 或 minidom,只要最终生成的字符串含 ]]>(连续三个字符),解析器就会认为 CDATA 结束,后面内容变成普通文本或报错。
常见踩坑点:
- 用户输入里带
]]>(比如代码示例、正则表达式、注释)没做预处理 - 拼接多个 CDATA 片段时,中间漏了分隔符,导致
]]><![CDATA[连在一起 - 误以为 CDATA 是“万能 HTML 注入区”,实际它只是跳过解析,不解决 XSS,也不改变语义
安全做法:对原始内容做一次替换,比如把 ]]> 拆成 ]]><
