如何通过 String.prototype.codePointAt() 方法遍历文本提取隐藏的 Unicode 控制字符?

2026-05-07 18:481阅读0评论SEO基础
  • 内容介绍
  • 相关推荐

本文共计879个文字,预计阅读时间需要4分钟。

如何通过 String.prototype.codePointAt() 方法遍历文本提取隐藏的 Unicode 控制字符?

`codePointAt() 方法` 本身不用于提取隐藏控制符,而是用于获取指定位置的 Unicode 码点值。该方法不涉及图像解释,也不涉及数数,且直接输出结果,不超过 100 字。

`codePointAt() 方法` 获取字符串中指定位置的 Unicode 码点值,需要区分控制符,并结合码点范围进行判断——关键在于遍历+条件过滤。

理解哪些码点属于 Unicode 控制字符

Unicode 控制字符(C0/C1 控制符、格式化符、私用区以外的不可见功能符)主要分布在以下范围:

  • U+0000–U+001F(C0 控制符,如 \u0000 NUL、\u0009 TAB、\u000A LF)
  • U+007F(DEL)
  • U+0080–U+009F(C1 控制符,如 \u0085 NEL)
  • U+2000–U+200FU+2028–U+202EU+2060–U+206F(常用格式控制符,如 ZWSP \u200B、LRM \u200E、RLO \u202E
  • U+FEFF(BOM,零宽无断空格,常被误用为隐藏标记)

用 codePointAt() 安全遍历所有码点(含代理对)

普通 for (let i = 0; i 会把代理对(surrogate pair)拆成两个错误码点;<code>codePointAt(i) 自动处理代理对,且返回完整码点,但需配合 String.fromCodePoint() 和跳过后续代理高位:

  • 调用 str.codePointAt(i) 获取当前位置码点
  • 若返回值 ≥ 0x10000,说明是代理对,下一位(i+1)属于该字符,下次循环应跳过它(即 i++
  • 否则正常递增 i

提取并标记控制符的实际代码示例

以下函数返回所有控制符的位置、码点、名称(简略)和原始表示:

function findControlChars(str) { const controls = []; for (let i = 0; i < str.length; i++) { const cp = str.codePointAt(i); // 跳过代理高位(低位已由 codePointAt 处理) if (cp >= 0x10000) i++; // 判断是否为常见控制/格式字符 if ( (cp >= 0x0000 && cp <= 0x001F) || // C0 cp === 0x007F || // DEL (cp >= 0x0080 && cp <= 0x009F) || // C1 (cp >= 0x2000 && cp <= 0x200F) || (cp >= 0x2028 && cp <= 0x202E) || (cp >= 0x2060 && cp <= 0x206F) || cp === 0xFEFF ) { controls.push({ index: i, codePoint: cp, hex: 'U+' + cp.toString(16).toUpperCase().padStart(4, '0'), char: String.fromCodePoint(cp), name: getControlName(cp) }); } } return controls; } function getControlName(cp) { const names = { 0x0000: 'NUL', 0x0009: 'TAB', 0x000A: 'LF', 0x000D: 'CR', 0x200B: 'ZWSP', 0x200C: 'ZWNJ', 0x200D: 'ZWJ', 0x202E: 'RLO', 0x202D: 'LRO', 0xFEFF: 'BOM' }; return names[cp] || 'CONTROL'; }

注意边界与实际用途

提取到的控制符未必“恶意”——它们可能合法存在于富文本、国际化排版或协议数据中。真正需警惕的是:

  • 用户输入中意外混入的 \u202E(强制反转显示,用于视觉欺骗)
  • \u200B 拆分单词绕过关键词过滤
  • BOM 开头干扰 JSON 解析或脚本执行
  • 非打印控制符导致正则匹配、长度计算、DOM 渲染异常

因此,检测后应根据场景选择:日志记录、清理(replace() 过滤)、转义显示,或拒绝输入。

本文共计879个文字,预计阅读时间需要4分钟。

如何通过 String.prototype.codePointAt() 方法遍历文本提取隐藏的 Unicode 控制字符?

`codePointAt() 方法` 本身不用于提取隐藏控制符,而是用于获取指定位置的 Unicode 码点值。该方法不涉及图像解释,也不涉及数数,且直接输出结果,不超过 100 字。

`codePointAt() 方法` 获取字符串中指定位置的 Unicode 码点值,需要区分控制符,并结合码点范围进行判断——关键在于遍历+条件过滤。

理解哪些码点属于 Unicode 控制字符

Unicode 控制字符(C0/C1 控制符、格式化符、私用区以外的不可见功能符)主要分布在以下范围:

  • U+0000–U+001F(C0 控制符,如 \u0000 NUL、\u0009 TAB、\u000A LF)
  • U+007F(DEL)
  • U+0080–U+009F(C1 控制符,如 \u0085 NEL)
  • U+2000–U+200FU+2028–U+202EU+2060–U+206F(常用格式控制符,如 ZWSP \u200B、LRM \u200E、RLO \u202E
  • U+FEFF(BOM,零宽无断空格,常被误用为隐藏标记)

用 codePointAt() 安全遍历所有码点(含代理对)

普通 for (let i = 0; i 会把代理对(surrogate pair)拆成两个错误码点;<code>codePointAt(i) 自动处理代理对,且返回完整码点,但需配合 String.fromCodePoint() 和跳过后续代理高位:

  • 调用 str.codePointAt(i) 获取当前位置码点
  • 若返回值 ≥ 0x10000,说明是代理对,下一位(i+1)属于该字符,下次循环应跳过它(即 i++
  • 否则正常递增 i

提取并标记控制符的实际代码示例

以下函数返回所有控制符的位置、码点、名称(简略)和原始表示:

function findControlChars(str) { const controls = []; for (let i = 0; i < str.length; i++) { const cp = str.codePointAt(i); // 跳过代理高位(低位已由 codePointAt 处理) if (cp >= 0x10000) i++; // 判断是否为常见控制/格式字符 if ( (cp >= 0x0000 && cp <= 0x001F) || // C0 cp === 0x007F || // DEL (cp >= 0x0080 && cp <= 0x009F) || // C1 (cp >= 0x2000 && cp <= 0x200F) || (cp >= 0x2028 && cp <= 0x202E) || (cp >= 0x2060 && cp <= 0x206F) || cp === 0xFEFF ) { controls.push({ index: i, codePoint: cp, hex: 'U+' + cp.toString(16).toUpperCase().padStart(4, '0'), char: String.fromCodePoint(cp), name: getControlName(cp) }); } } return controls; } function getControlName(cp) { const names = { 0x0000: 'NUL', 0x0009: 'TAB', 0x000A: 'LF', 0x000D: 'CR', 0x200B: 'ZWSP', 0x200C: 'ZWNJ', 0x200D: 'ZWJ', 0x202E: 'RLO', 0x202D: 'LRO', 0xFEFF: 'BOM' }; return names[cp] || 'CONTROL'; }

注意边界与实际用途

提取到的控制符未必“恶意”——它们可能合法存在于富文本、国际化排版或协议数据中。真正需警惕的是:

  • 用户输入中意外混入的 \u202E(强制反转显示,用于视觉欺骗)
  • \u200B 拆分单词绕过关键词过滤
  • BOM 开头干扰 JSON 解析或脚本执行
  • 非打印控制符导致正则匹配、长度计算、DOM 渲染异常

因此,检测后应根据场景选择:日志记录、清理(replace() 过滤)、转义显示,或拒绝输入。