如何通过Embedding技术入门AI,开启深度学习的大门?

2026-06-07 19:030阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

先说说啥叫Embedding, 别慌

哈哈,这玩意儿听起来高大上,其实就是把“文字、图片、 换个思路。 用户ID”这些离散的东西,变成一堆数字。

你想啊,机器只能看数字,根本不懂“猫”是啥。

如何通过Embedding技术入门AI,开启深度学习的大门?

所以我们给它一个坐标,让它在高维空间里跑来跑去。

如何通过Embedding技术入门AI,开启深度学习的大门?

精辟。 不对不对,准确点说是把每个符号映射到一个稠密向量。

为什么要丢掉One‑hot?

早期大家用One‑hot,那是个一万维的向量,只有一个1,其他全是0。

后来啊呢?空间浪费得要死,而且“猫”和“狗”的距离跟“猫”和“冰箱”一样——全是正交。

害,这根本不能表达相似度。

于是有人想了个办法:让相近的词在向量里也靠得近。

从Word2Vec到大模型的进化

先说Word2Vec, 它是小模型时代的明星,用CBOW或者Skip‑gram学词的上下文关系。

好像有点意思,但只能给每个词一个固定向量,遇到“一刀切”的情况就尴尬了,大体上...。

再往后BERT、GPT这些大模型来了它们会根据句子里所有词的上下文来生成向量,我们都经历过...。

比如“苹果”在水果句子里和在手机句子里的向量,就完全不同——这叫上下文感知,你懂吧?

怎么把文字变成索引?

先有Tokenizer,把句子切成最小单元——可能是词,也可能是子词。

比如“unhappiness”,会被拆成“un”和 “happiness”。

也是醉了... 这个过程其实就是把语言翻译成机器能读的数字序列。

阅读全文
标签:这回

先说说啥叫Embedding, 别慌

哈哈,这玩意儿听起来高大上,其实就是把“文字、图片、 换个思路。 用户ID”这些离散的东西,变成一堆数字。

你想啊,机器只能看数字,根本不懂“猫”是啥。

如何通过Embedding技术入门AI,开启深度学习的大门?

所以我们给它一个坐标,让它在高维空间里跑来跑去。

如何通过Embedding技术入门AI,开启深度学习的大门?

精辟。 不对不对,准确点说是把每个符号映射到一个稠密向量。

为什么要丢掉One‑hot?

早期大家用One‑hot,那是个一万维的向量,只有一个1,其他全是0。

后来啊呢?空间浪费得要死,而且“猫”和“狗”的距离跟“猫”和“冰箱”一样——全是正交。

害,这根本不能表达相似度。

于是有人想了个办法:让相近的词在向量里也靠得近。

从Word2Vec到大模型的进化

先说Word2Vec, 它是小模型时代的明星,用CBOW或者Skip‑gram学词的上下文关系。

好像有点意思,但只能给每个词一个固定向量,遇到“一刀切”的情况就尴尬了,大体上...。

再往后BERT、GPT这些大模型来了它们会根据句子里所有词的上下文来生成向量,我们都经历过...。

比如“苹果”在水果句子里和在手机句子里的向量,就完全不同——这叫上下文感知,你懂吧?

怎么把文字变成索引?

先有Tokenizer,把句子切成最小单元——可能是词,也可能是子词。

比如“unhappiness”,会被拆成“un”和 “happiness”。

也是醉了... 这个过程其实就是把语言翻译成机器能读的数字序列。

阅读全文
标签:这回