如何通过Word2Vec实现文本数据的可视化展示?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1681个文字,预计阅读时间需要7分钟。
目录 + Word2Vec简介 + 简单可视化 + 实战演练 + 总结 + Word2Vec简介 + 自然语言处理的核心概念之一是如何量化单词和表达式,以便在模型环境中使用它们。这种从语言元素到数值表示的映射称为词嵌入。
目录
- Word2Vec简介
- 简单可视化
- 实战演练
- 总结
Word2Vec简介
自然语言处理的核心概念之一是如何量化单词和表达式,以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。
Word2Vec是一个词嵌入过程。这个概念相对简单:通过一个句子一个句子地在语料库中循环去拟合一个模型,根据预先定义的窗口中的相邻单词预测当前单词。
为此,它使用了一个神经网络,但实际上最后我们并不使用预测的结果。一旦模型被保存,我们只保存隐藏层的权重。在我们将要使用的原始模型中,有300个权重,因此每个单词都由一个300维向量表示。
请注意,两个单词不必彼此接近的地方才被认为是相似的。如果两个词从来没有出现在同一个句子中,但它们通常被相同的包围,那么可以肯定它们有相似的意思。
Word2Vec中有两种建模方法:skip-gram和continuous bag of words,这两种方法都有各自的优点和对某些超参数的敏感性。
当然,你得到的词向量取决于你训练模型的语料库。一般来说,你确实需要一个庞大的语料库,有维基百科上训练过的版本,或者来自不同来源的新闻文章。我们将要使用的结果是在Google新闻上训练出来的。
本文共计1681个文字,预计阅读时间需要7分钟。
目录 + Word2Vec简介 + 简单可视化 + 实战演练 + 总结 + Word2Vec简介 + 自然语言处理的核心概念之一是如何量化单词和表达式,以便在模型环境中使用它们。这种从语言元素到数值表示的映射称为词嵌入。
目录
- Word2Vec简介
- 简单可视化
- 实战演练
- 总结
Word2Vec简介
自然语言处理的核心概念之一是如何量化单词和表达式,以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。
Word2Vec是一个词嵌入过程。这个概念相对简单:通过一个句子一个句子地在语料库中循环去拟合一个模型,根据预先定义的窗口中的相邻单词预测当前单词。
为此,它使用了一个神经网络,但实际上最后我们并不使用预测的结果。一旦模型被保存,我们只保存隐藏层的权重。在我们将要使用的原始模型中,有300个权重,因此每个单词都由一个300维向量表示。
请注意,两个单词不必彼此接近的地方才被认为是相似的。如果两个词从来没有出现在同一个句子中,但它们通常被相同的包围,那么可以肯定它们有相似的意思。
Word2Vec中有两种建模方法:skip-gram和continuous bag of words,这两种方法都有各自的优点和对某些超参数的敏感性。
当然,你得到的词向量取决于你训练模型的语料库。一般来说,你确实需要一个庞大的语料库,有维基百科上训练过的版本,或者来自不同来源的新闻文章。我们将要使用的结果是在Google新闻上训练出来的。

