如何高效处理文本数据(上):构建词袋模型?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1277个文字,预计阅读时间需要6分钟。
我们讨论过两种表示数据属性的类别:连续特征与分类特征。前者用于描述数量,后者是固定列表中的元素。第三种类型是文本,通常由字符组成。
我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。
第三种类型的特征:文本
- 文本数据通常被表示为由字符组成的字符串。
文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。
字符串特征有时可以表示分类变量。在查看数据之前,我们无法知道如何处理一个字符串特征。
⭐四种类型的字符串数据:
-
1、分类数据
- 分类数据(categorical data)是来自固定列表的数据。
-
2、可以在语义上映射为类别的自由字符串
- 你向用户提供的不是一个下拉菜单,而是一个文本框,让他们填写自己最喜欢的颜色。
- 许多人的回答可能是像 “黑色” 或 “蓝色” 之类的颜色名称。其他人可能会出现笔误,使用不同的单词拼写(比如 “gray” 和 “grey” ),或使用更加形象的具体名称 (比如 “午夜蓝色”)。
- 可能最好将这种数据编码为分类变量,你可以利用最常见的条目来选择类别,也可以自定义类别,使用户回答对应用有意义。
本文共计1277个文字,预计阅读时间需要6分钟。
我们讨论过两种表示数据属性的类别:连续特征与分类特征。前者用于描述数量,后者是固定列表中的元素。第三种类型是文本,通常由字符组成。
我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。
第三种类型的特征:文本
- 文本数据通常被表示为由字符组成的字符串。
文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。
字符串特征有时可以表示分类变量。在查看数据之前,我们无法知道如何处理一个字符串特征。
⭐四种类型的字符串数据:
-
1、分类数据
- 分类数据(categorical data)是来自固定列表的数据。
-
2、可以在语义上映射为类别的自由字符串
- 你向用户提供的不是一个下拉菜单,而是一个文本框,让他们填写自己最喜欢的颜色。
- 许多人的回答可能是像 “黑色” 或 “蓝色” 之类的颜色名称。其他人可能会出现笔误,使用不同的单词拼写(比如 “gray” 和 “grey” ),或使用更加形象的具体名称 (比如 “午夜蓝色”)。
- 可能最好将这种数据编码为分类变量,你可以利用最常见的条目来选择类别,也可以自定义类别,使用户回答对应用有意义。

