如何用Python实现基础的word2vec模型操作?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2340个文字,预计阅读时间需要10分钟。
一、前言:一开始看到word2vec环境的安装还觉得挺复杂的,半天Cygwin也没太搞懂。
二、转变:后来突然发现,为什么我要去安装C语言版本的,我应该直接用Python版本的。
三、发现:然后发现了gensim库,安装了个ge。
一、前言
一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂。后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他语言的word2vec了。
二、语料准备
有了gensim包之后,看了网上很多教程都是直接传入一个txt文件,但是这个txt文件长啥样,是什么样的数据格式呢,很多博客都没有说明,也没有提供可以下载的txt文件作为例子。进一步理解之后发现这个txt是一个包含巨多文本的分好词的文件。如下图所示,是我自己训练的一个语料,我选取了自己之前用爬虫抓取的7000条新闻当做语料并进行分词。注意,词与词之间一定要用空格:
这里分词使用的是结巴分词。
本文共计2340个文字,预计阅读时间需要10分钟。
一、前言:一开始看到word2vec环境的安装还觉得挺复杂的,半天Cygwin也没太搞懂。
二、转变:后来突然发现,为什么我要去安装C语言版本的,我应该直接用Python版本的。
三、发现:然后发现了gensim库,安装了个ge。
一、前言
一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂。后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他语言的word2vec了。
二、语料准备
有了gensim包之后,看了网上很多教程都是直接传入一个txt文件,但是这个txt文件长啥样,是什么样的数据格式呢,很多博客都没有说明,也没有提供可以下载的txt文件作为例子。进一步理解之后发现这个txt是一个包含巨多文本的分好词的文件。如下图所示,是我自己训练的一个语料,我选取了自己之前用爬虫抓取的7000条新闻当做语料并进行分词。注意,词与词之间一定要用空格:
这里分词使用的是结巴分词。

