如何将Lua文件读写操作应用于构建长尾词敏感词库管理?
- 内容介绍
- 文章标签
- 相关推荐
本文共计837个文字,预计阅读时间需要4分钟。
最近需要给游戏做一套敏感词系统,我采用的方法是比较常见的DFA(确定性有限状态机)算法,先不讲解算法,而是这种算法的实现需要依赖一个相应的敏感词库。我拿到了词库后发现,其中包含了敏感词。
最近需要给游戏做一个敏感词新系统,我采用的方法是比较常用的DFA(确定有穷状态机)算
法,先不讲算法,而这种算法的实现需要一个相应的敏感词库。
我拿到了词库后发现词库中大概有8000+个词,其中包括很多重复的,还有很多有着头包含关
系的词;
什么是头包含词呢? 看如下例子:
我们知道在DFA算法读取敏感词后如果存在这种情况:
词1: "ab" 词2: "abc"
在读取之后“ ab “这个敏感词就会不复存在而被abc覆盖掉, 而我们游戏需要对敏感词进行的
操作不是以其他字符(如 * *)代替句子中的敏感词而是如果判断出句子中含有敏感词,则无法发
出。
本文共计837个文字,预计阅读时间需要4分钟。
最近需要给游戏做一套敏感词系统,我采用的方法是比较常见的DFA(确定性有限状态机)算法,先不讲解算法,而是这种算法的实现需要依赖一个相应的敏感词库。我拿到了词库后发现,其中包含了敏感词。
最近需要给游戏做一个敏感词新系统,我采用的方法是比较常用的DFA(确定有穷状态机)算
法,先不讲算法,而这种算法的实现需要一个相应的敏感词库。
我拿到了词库后发现词库中大概有8000+个词,其中包括很多重复的,还有很多有着头包含关
系的词;
什么是头包含词呢? 看如下例子:
我们知道在DFA算法读取敏感词后如果存在这种情况:
词1: "ab" 词2: "abc"
在读取之后“ ab “这个敏感词就会不复存在而被abc覆盖掉, 而我们游戏需要对敏感词进行的
操作不是以其他字符(如 * *)代替句子中的敏感词而是如果判断出句子中含有敏感词,则无法发
出。

