如何高效处理文本数据(上):构建词袋模型?

2026-05-05 19:210阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计1277个文字,预计阅读时间需要6分钟。

如何高效处理文本数据(上):构建词袋模型?

我们讨论过两种表示数据属性的类别:连续特征与分类特征。前者用于描述数量,后者是固定列表中的元素。第三种类型是文本,通常由字符组成。

我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。
第三种类型的特征:文本

  • 文本数据通常被表示为由字符组成的字符串。
1、用字符串表示的数据类型

文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。

字符串特征有时可以表示分类变量。在查看数据之前,我们无法知道如何处理一个字符串特征。

如何高效处理文本数据(上):构建词袋模型?

⭐四种类型的字符串数据:

  • 1、分类数据

    • 分类数据(categorical data)是来自固定列表的数据。
  • 2、可以在语义上映射为类别的自由字符串

    • 你向用户提供的不是一个下拉菜单,而是一个文本框,让他们填写自己最喜欢的颜色。
    • 许多人的回答可能是像 “黑色” 或 “蓝色” 之类的颜色名称。其他人可能会出现笔误,使用不同的单词拼写(比如 “gray” 和 “grey” ),或使用更加形象的具体名称 (比如 “午夜蓝色”)。
    • 可能最好将这种数据编码为分类变量,你可以利用最常见的条目来选择类别,也可以自定义类别,使用户回答对应用有意义。
阅读全文

本文共计1277个文字,预计阅读时间需要6分钟。

如何高效处理文本数据(上):构建词袋模型?

我们讨论过两种表示数据属性的类别:连续特征与分类特征。前者用于描述数量,后者是固定列表中的元素。第三种类型是文本,通常由字符组成。

我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。
第三种类型的特征:文本

  • 文本数据通常被表示为由字符组成的字符串。
1、用字符串表示的数据类型

文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。

字符串特征有时可以表示分类变量。在查看数据之前,我们无法知道如何处理一个字符串特征。

如何高效处理文本数据(上):构建词袋模型?

⭐四种类型的字符串数据:

  • 1、分类数据

    • 分类数据(categorical data)是来自固定列表的数据。
  • 2、可以在语义上映射为类别的自由字符串

    • 你向用户提供的不是一个下拉菜单,而是一个文本框,让他们填写自己最喜欢的颜色。
    • 许多人的回答可能是像 “黑色” 或 “蓝色” 之类的颜色名称。其他人可能会出现笔误,使用不同的单词拼写(比如 “gray” 和 “grey” ),或使用更加形象的具体名称 (比如 “午夜蓝色”)。
    • 可能最好将这种数据编码为分类变量,你可以利用最常见的条目来选择类别,也可以自定义类别,使用户回答对应用有意义。
阅读全文