如何用正则表达式统计文本中的长尾词?
- 内容介绍
- 文章标签
- 相关推荐
本文共计580个文字,预计阅读时间需要3分钟。
思路 + 使用正则式 + (?x)(?:[\\w-]|[\\x80-\\xff]{3}) 获得UTF-8文档中的英文单词和汉字列表。使用 dictionary 记录每个单词,统计汉字出现的频率,如果出现则记录为 1,否则置为 1。
•使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词/汉字出现的频率,如果出现过则+1,如果没出现则置1。
•将dictionary按照value排序,输出。
本文共计580个文字,预计阅读时间需要3分钟。
思路 + 使用正则式 + (?x)(?:[\\w-]|[\\x80-\\xff]{3}) 获得UTF-8文档中的英文单词和汉字列表。使用 dictionary 记录每个单词,统计汉字出现的频率,如果出现则记录为 1,否则置为 1。
•使用正则式 "(?x) (?: [\w-]+ | [\x80-\xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词/汉字出现的频率,如果出现过则+1,如果没出现则置1。
•将dictionary按照value排序,输出。

