Gensim如何实现Python中的文本主题识别功能?
- 内容介绍
- 文章标签
- 相关推荐
本文共计3489个文字,预计阅读时间需要14分钟。
从海量文本中自动提取人们讨论的主题(主题识别)是自然语言处理的基本应用之一。例如,社交媒体评论、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户反馈等,都包含丰富的主题信息。
从大量文本中自动提取人们谈论的主题(主题识别)是自然语言处理的基本应用之一。大型文本示例包括社交媒体订阅、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户发来的邮件。
在本中,将使用LDA 从 20Newsgroup 数据集 中提取主题的实战案例。欢迎深入探讨,喜欢记得点赞、关注、收藏。
完整版代码、数据、技术交流文末获取
主题识别的基础知识
本节将涵盖主题识别和建模的原则。云朵君将和大家一起学习如何使用词袋方法和简单的 NLP 模型从文本中检测和提取主题。
词形还原
将单词简化为词根或词干称为词形还原。
首先实例化 WordNetLemmatizer 。调用 '.lemmatize()' 方法来构建一个名为 LEM 的tokens 的新列表。然后调用 Counter 类并生成一个名为 bag_words 的新 Counter,最后输出六个最有可能的主题。
lemmatizer = WordNetLemmatizer()lem_tokens = [lemmatizer.lemmatize(t) for t in stopwords_removed]
bag_words = Counter(lem_tokens)
print(bag_words.most_common(6))
Gensim 和 LDA
LDA 全称为 Latent Dirichlet Allocation,中文为潜在狄利克雷分配。
本文共计3489个文字,预计阅读时间需要14分钟。
从海量文本中自动提取人们讨论的主题(主题识别)是自然语言处理的基本应用之一。例如,社交媒体评论、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户反馈等,都包含丰富的主题信息。
从大量文本中自动提取人们谈论的主题(主题识别)是自然语言处理的基本应用之一。大型文本示例包括社交媒体订阅、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户发来的邮件。
在本中,将使用LDA 从 20Newsgroup 数据集 中提取主题的实战案例。欢迎深入探讨,喜欢记得点赞、关注、收藏。
完整版代码、数据、技术交流文末获取
主题识别的基础知识
本节将涵盖主题识别和建模的原则。云朵君将和大家一起学习如何使用词袋方法和简单的 NLP 模型从文本中检测和提取主题。
词形还原
将单词简化为词根或词干称为词形还原。
首先实例化 WordNetLemmatizer 。调用 '.lemmatize()' 方法来构建一个名为 LEM 的tokens 的新列表。然后调用 Counter 类并生成一个名为 bag_words 的新 Counter,最后输出六个最有可能的主题。
lemmatizer = WordNetLemmatizer()lem_tokens = [lemmatizer.lemmatize(t) for t in stopwords_removed]
bag_words = Counter(lem_tokens)
print(bag_words.most_common(6))
Gensim 和 LDA
LDA 全称为 Latent Dirichlet Allocation,中文为潜在狄利克雷分配。

