如何用Python实现基础的word2vec模型操作?

2026-05-25 04:070阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2340个文字,预计阅读时间需要10分钟。

如何用Python实现基础的word2vec模型操作?

一、前言:一开始看到word2vec环境的安装还觉得挺复杂的,半天Cygwin也没太搞懂。

二、转变:后来突然发现,为什么我要去安装C语言版本的,我应该直接用Python版本的。

三、发现:然后发现了gensim库,安装了个ge。

一、前言

一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂。后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他语言的word2vec了。

二、语料准备

有了gensim包之后,看了网上很多教程都是直接传入一个txt文件,但是这个txt文件长啥样,是什么样的数据格式呢,很多博客都没有说明,也没有提供可以下载的txt文件作为例子。进一步理解之后发现这个txt是一个包含巨多文本的分好词的文件。如下图所示,是我自己训练的一个语料,我选取了自己之前用爬虫抓取的7000条新闻当做语料并进行分词。注意,词与词之间一定要用空格:

这里分词使用的是结巴分词。

阅读全文

本文共计2340个文字,预计阅读时间需要10分钟。

如何用Python实现基础的word2vec模型操作?

一、前言:一开始看到word2vec环境的安装还觉得挺复杂的,半天Cygwin也没太搞懂。

二、转变:后来突然发现,为什么我要去安装C语言版本的,我应该直接用Python版本的。

三、发现:然后发现了gensim库,安装了个ge。

一、前言

一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂。后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他语言的word2vec了。

二、语料准备

有了gensim包之后,看了网上很多教程都是直接传入一个txt文件,但是这个txt文件长啥样,是什么样的数据格式呢,很多博客都没有说明,也没有提供可以下载的txt文件作为例子。进一步理解之后发现这个txt是一个包含巨多文本的分好词的文件。如下图所示,是我自己训练的一个语料,我选取了自己之前用爬虫抓取的7000条新闻当做语料并进行分词。注意,词与词之间一定要用空格:

这里分词使用的是结巴分词。

阅读全文