XML Schema中xs:token与string有何不同？空白字符在XSD中如何处理？

2026-04-29 13:223阅读0评论SEO基础

内容介绍
相关推荐

本文共计1003个文字，预计阅读时间需要5分钟。

XML Schema中xs:token与string有何不同？空白字符在XSD中如何处理？

这是最常见的错误地方：

实际场景中，比如配置项、用户名、URL 片段这类「语义上不该有冗余空白」的字段，用 xs:token 更安全；而日志文本、代码片段、base64 编码块等需要保留原始空白的，必须用 xs:string。

xs:token 等价于 W3C 定义的「normalized string + trim」
xs:string 是最底层类型，不做任何空白处理
部分 XML 解析器（如 Java 的 JAXB）在绑定到 Java String 时，对 xs:token 的处理可能依赖底层 DOM 或 StAX 实现，不一定完全一致

xs:token 对换行符和制表符也敏感

很多人只注意空格，忽略 xs:token 同样会把 \n、\t、\r 当作「空白字符」一并归一化。例如：

<name>Alice<tab><newline>Smith</name>

用 xs:token 声明时，最终值是 "Alice Smith"（<tab> 和 <newline> 被替换成空格）；用 xs:string 则原样保留。

如果你的 XML 数据来自用户粘贴（比如富文本编辑器导出），且内容含有意图的缩进或换行，别误用 xs:token
XSD 验证器（如 Xerces）报错 cvc-datatype-valid.1.2.1: '' is not valid with respect to the type 'xs:token'，往往是因为字段值全是空白（被 trim 后为空），而 xs:token 允许空字符串，但某些业务逻辑或后续解析器会拒收空值

xs:token 是 xs:string 的限制类型，不能反过来赋值

在 XSD 类型继承体系中，xs:token 是 xs:string 的派生类型（restriction），所以 XML 实例中，一个声明为 xs:token 的元素，其内容必须满足 xs:token 的空白规则；但反过来，声明为 xs:string 的字段可以接受任意空白形式的内容。

如果已有 XML 实例含大量冗余空白，又想加 XSD 验证，优先选 xs:string，否则验证直接失败
用 <xsd:simpleType> 自定义类型时，若基于 xs:token 再加 pattern 约束（比如邮箱格式），要注意 pattern 是在归一化后的字符串上匹配的
某些工具（如 XMLSpy）生成的 Java 类，默认把所有文本字段映射为 String，不会体现 token 和 string 的差异——这时业务层得自己补 trim 或校验

验证时 whitespace facet 对 token 无效

xs:token 的空白处理是硬编码行为，不受 whiteSpace facet 控制。你写：

<xs:simpleType name="myToken"> <xs:restriction base="xs:token"> <xs:whiteSpace value="preserve"/>  </xs:restriction> </xs:simpleType>

这个 <xs:whiteSpace> 根本不起作用。只有在基于 xs:string 或其他原子类型（如 xs:integer）做 restriction 时，whiteSpace 才有效。

想保留空白？只能用 xs:string，别试图“覆盖” xs:token 行为
想强制非空+归一化？用 xs:token + <xs:minLength value="1"/>，比在代码里手动 trim 更靠前、更统一
不同解析器对「归一化时机」理解略有差异：有些在 DOM 加载时归一化，有些在 Schema 验证时，调试时注意看最终进入业务逻辑的字符串长什么样

事情说清了就结束

本文共计1003个文字，预计阅读时间需要5分钟。

这是最常见的错误地方：

xs:token 等价于 W3C 定义的「normalized string + trim」
xs:string 是最底层类型，不做任何空白处理
部分 XML 解析器（如 Java 的 JAXB）在绑定到 Java String 时，对 xs:token 的处理可能依赖底层 DOM 或 StAX 实现，不一定完全一致

xs:token 对换行符和制表符也敏感

很多人只注意空格，忽略 xs:token 同样会把 \n、\t、\r 当作「空白字符」一并归一化。例如：

<name>Alice<tab><newline>Smith</name>

用 xs:token 声明时，最终值是 "Alice Smith"（<tab> 和 <newline> 被替换成空格）；用 xs:string 则原样保留。

如果你的 XML 数据来自用户粘贴（比如富文本编辑器导出），且内容含有意图的缩进或换行，别误用 xs:token
XSD 验证器（如 Xerces）报错 cvc-datatype-valid.1.2.1: '' is not valid with respect to the type 'xs:token'，往往是因为字段值全是空白（被 trim 后为空），而 xs:token 允许空字符串，但某些业务逻辑或后续解析器会拒收空值

xs:token 是 xs:string 的限制类型，不能反过来赋值

如果已有 XML 实例含大量冗余空白，又想加 XSD 验证，优先选 xs:string，否则验证直接失败
用 <xsd:simpleType> 自定义类型时，若基于 xs:token 再加 pattern 约束（比如邮箱格式），要注意 pattern 是在归一化后的字符串上匹配的
某些工具（如 XMLSpy）生成的 Java 类，默认把所有文本字段映射为 String，不会体现 token 和 string 的差异——这时业务层得自己补 trim 或校验

验证时 whitespace facet 对 token 无效

xs:token 的空白处理是硬编码行为，不受 whiteSpace facet 控制。你写：

<xs:simpleType name="myToken"> <xs:restriction base="xs:token"> <xs:whiteSpace value="preserve"/>  </xs:restriction> </xs:simpleType>

这个 <xs:whiteSpace> 根本不起作用。只有在基于 xs:string 或其他原子类型（如 xs:integer）做 restriction 时，whiteSpace 才有效。

想保留空白？只能用 xs:string，别试图“覆盖” xs:token 行为
想强制非空+归一化？用 xs:token + <xs:minLength value="1"/>，比在代码里手动 trim 更靠前、更统一
不同解析器对「归一化时机」理解略有差异：有些在 DOM 加载时归一化，有些在 Schema 验证时，调试时注意看最终进入业务逻辑的字符串长什么样

事情说清了就结束

xs:token 对换行符和制表符也敏感

xs:token 是 xs:string 的限制类型，不能反过来赋值

验证时 whitespace facet 对 token 无效

相关推荐

xs:token 对换行符和制表符也敏感

xs:token 是 xs:string 的限制类型，不能反过来赋值

验证时 whitespace facet 对 token 无效

相关推荐