如何通过状态机实现简单脚本词法分析及Token分词的源码逻辑?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1208个文字,预计阅读时间需要5分钟。
由于状态复杂、边界混乱、退出困难。例如识别0x123(十六进制整数)时,读到'0'后必须试探下一个字符是'x'还是'0'-'9',再决定是走整数路径还是浮点路径;若误判,还需将已读字符吐回。纯if-else结构容易漏掉退出逻辑,或在嵌套条件中迷失控制流。
状态机把每个判断节点显式建模为状态,转移只依赖当前状态 + 当前字符,天然支持回退(比如在 STATE_IDENTIFIER 中遇到非法字符,就回退一个位置并输出 identifier token)。
- 状态定义建议用 enum:如
STATE_START、STATE_IN_NUMBER、STATE_IN_STRING - 每个状态对应一个处理块,只关心“当前字符能带我到哪”
- 所有状态共享同一个
pos指针,但只有确认终结态才推进pos;未终结时保持原位,留给上层决定是否回退
如何设计可终止的字符消费与 token 提交逻辑
关键不是“读完一个 token 就停”,而是“读到某个状态后,能明确回答:这是完整 token 吗?要不要回退?”——比如 123.456e+ 是不完整浮点字面量,必须在 e 后检测下一个字符是否为数字或符号,否则就得截断为 123.456 并回退 e 的位置。
本文共计1208个文字,预计阅读时间需要5分钟。
由于状态复杂、边界混乱、退出困难。例如识别0x123(十六进制整数)时,读到'0'后必须试探下一个字符是'x'还是'0'-'9',再决定是走整数路径还是浮点路径;若误判,还需将已读字符吐回。纯if-else结构容易漏掉退出逻辑,或在嵌套条件中迷失控制流。
状态机把每个判断节点显式建模为状态,转移只依赖当前状态 + 当前字符,天然支持回退(比如在 STATE_IDENTIFIER 中遇到非法字符,就回退一个位置并输出 identifier token)。
- 状态定义建议用 enum:如
STATE_START、STATE_IN_NUMBER、STATE_IN_STRING - 每个状态对应一个处理块,只关心“当前字符能带我到哪”
- 所有状态共享同一个
pos指针,但只有确认终结态才推进pos;未终结时保持原位,留给上层决定是否回退
如何设计可终止的字符消费与 token 提交逻辑
关键不是“读完一个 token 就停”,而是“读到某个状态后,能明确回答:这是完整 token 吗?要不要回退?”——比如 123.456e+ 是不完整浮点字面量,必须在 e 后检测下一个字符是否为数字或符号,否则就得截断为 123.456 并回退 e 的位置。

