如何通过 String.prototype.codePointAt() 方法遍历文本提取隐藏的 Unicode 控制字符?
- 内容介绍
- 相关推荐
本文共计879个文字,预计阅读时间需要4分钟。
`codePointAt() 方法` 本身不用于提取隐藏控制符,而是用于获取指定位置的 Unicode 码点值。该方法不涉及图像解释,也不涉及数数,且直接输出结果,不超过 100 字。
`codePointAt() 方法` 获取字符串中指定位置的 Unicode 码点值,需要区分控制符,并结合码点范围进行判断——关键在于遍历+条件过滤。
理解哪些码点属于 Unicode 控制字符
Unicode 控制字符(C0/C1 控制符、格式化符、私用区以外的不可见功能符)主要分布在以下范围:
-
U+0000–U+001F(C0 控制符,如
\u0000NUL、\u0009TAB、\u000ALF) - U+007F(DEL)
-
U+0080–U+009F(C1 控制符,如
\u0085NEL) -
U+2000–U+200F、U+2028–U+202E、U+2060–U+206F(常用格式控制符,如 ZWSP
\u200B、LRM\u200E、RLO\u202E) - U+FEFF(BOM,零宽无断空格,常被误用为隐藏标记)
用 codePointAt() 安全遍历所有码点(含代理对)
普通 for (let i = 0; i 会把代理对(surrogate pair)拆成两个错误码点;<code>codePointAt(i) 自动处理代理对,且返回完整码点,但需配合 String.fromCodePoint() 和跳过后续代理高位:
- 调用
str.codePointAt(i)获取当前位置码点 - 若返回值 ≥
0x10000,说明是代理对,下一位(i+1)属于该字符,下次循环应跳过它(即i++) - 否则正常递增
i
提取并标记控制符的实际代码示例
以下函数返回所有控制符的位置、码点、名称(简略)和原始表示:
function findControlChars(str) { const controls = []; for (let i = 0; i < str.length; i++) { const cp = str.codePointAt(i); // 跳过代理高位(低位已由 codePointAt 处理) if (cp >= 0x10000) i++; // 判断是否为常见控制/格式字符 if ( (cp >= 0x0000 && cp <= 0x001F) || // C0 cp === 0x007F || // DEL (cp >= 0x0080 && cp <= 0x009F) || // C1 (cp >= 0x2000 && cp <= 0x200F) || (cp >= 0x2028 && cp <= 0x202E) || (cp >= 0x2060 && cp <= 0x206F) || cp === 0xFEFF ) { controls.push({ index: i, codePoint: cp, hex: 'U+' + cp.toString(16).toUpperCase().padStart(4, '0'), char: String.fromCodePoint(cp), name: getControlName(cp) }); } } return controls; } function getControlName(cp) { const names = { 0x0000: 'NUL', 0x0009: 'TAB', 0x000A: 'LF', 0x000D: 'CR', 0x200B: 'ZWSP', 0x200C: 'ZWNJ', 0x200D: 'ZWJ', 0x202E: 'RLO', 0x202D: 'LRO', 0xFEFF: 'BOM' }; return names[cp] || 'CONTROL'; }
注意边界与实际用途
提取到的控制符未必“恶意”——它们可能合法存在于富文本、国际化排版或协议数据中。真正需警惕的是:
- 用户输入中意外混入的
\u202E(强制反转显示,用于视觉欺骗) - 用
\u200B拆分单词绕过关键词过滤 - BOM 开头干扰 JSON 解析或脚本执行
- 非打印控制符导致正则匹配、长度计算、DOM 渲染异常
因此,检测后应根据场景选择:日志记录、清理(replace() 过滤)、转义显示,或拒绝输入。
本文共计879个文字,预计阅读时间需要4分钟。
`codePointAt() 方法` 本身不用于提取隐藏控制符,而是用于获取指定位置的 Unicode 码点值。该方法不涉及图像解释,也不涉及数数,且直接输出结果,不超过 100 字。
`codePointAt() 方法` 获取字符串中指定位置的 Unicode 码点值,需要区分控制符,并结合码点范围进行判断——关键在于遍历+条件过滤。
理解哪些码点属于 Unicode 控制字符
Unicode 控制字符(C0/C1 控制符、格式化符、私用区以外的不可见功能符)主要分布在以下范围:
-
U+0000–U+001F(C0 控制符,如
\u0000NUL、\u0009TAB、\u000ALF) - U+007F(DEL)
-
U+0080–U+009F(C1 控制符,如
\u0085NEL) -
U+2000–U+200F、U+2028–U+202E、U+2060–U+206F(常用格式控制符,如 ZWSP
\u200B、LRM\u200E、RLO\u202E) - U+FEFF(BOM,零宽无断空格,常被误用为隐藏标记)
用 codePointAt() 安全遍历所有码点(含代理对)
普通 for (let i = 0; i 会把代理对(surrogate pair)拆成两个错误码点;<code>codePointAt(i) 自动处理代理对,且返回完整码点,但需配合 String.fromCodePoint() 和跳过后续代理高位:
- 调用
str.codePointAt(i)获取当前位置码点 - 若返回值 ≥
0x10000,说明是代理对,下一位(i+1)属于该字符,下次循环应跳过它(即i++) - 否则正常递增
i
提取并标记控制符的实际代码示例
以下函数返回所有控制符的位置、码点、名称(简略)和原始表示:
function findControlChars(str) { const controls = []; for (let i = 0; i < str.length; i++) { const cp = str.codePointAt(i); // 跳过代理高位(低位已由 codePointAt 处理) if (cp >= 0x10000) i++; // 判断是否为常见控制/格式字符 if ( (cp >= 0x0000 && cp <= 0x001F) || // C0 cp === 0x007F || // DEL (cp >= 0x0080 && cp <= 0x009F) || // C1 (cp >= 0x2000 && cp <= 0x200F) || (cp >= 0x2028 && cp <= 0x202E) || (cp >= 0x2060 && cp <= 0x206F) || cp === 0xFEFF ) { controls.push({ index: i, codePoint: cp, hex: 'U+' + cp.toString(16).toUpperCase().padStart(4, '0'), char: String.fromCodePoint(cp), name: getControlName(cp) }); } } return controls; } function getControlName(cp) { const names = { 0x0000: 'NUL', 0x0009: 'TAB', 0x000A: 'LF', 0x000D: 'CR', 0x200B: 'ZWSP', 0x200C: 'ZWNJ', 0x200D: 'ZWJ', 0x202E: 'RLO', 0x202D: 'LRO', 0xFEFF: 'BOM' }; return names[cp] || 'CONTROL'; }
注意边界与实际用途
提取到的控制符未必“恶意”——它们可能合法存在于富文本、国际化排版或协议数据中。真正需警惕的是:
- 用户输入中意外混入的
\u202E(强制反转显示,用于视觉欺骗) - 用
\u200B拆分单词绕过关键词过滤 - BOM 开头干扰 JSON 解析或脚本执行
- 非打印控制符导致正则匹配、长度计算、DOM 渲染异常
因此,检测后应根据场景选择:日志记录、清理(replace() 过滤)、转义显示,或拒绝输入。

