Transformer模型1如何应对长尾词的挑战?
- 内容介绍
- 文章标签
- 相关推荐
本文共计4168个文字,预计阅读时间需要17分钟。
Transformer 模型是 Google 团队在 2017 年提出的一种 NLP 经典模型。与 BERT 等热门模型类似,Transformer 也基于 Transformer 架构。该模型采用了 Self-Attention 机制,无需 RNN 的顺序结构,实现了高效的信息处理。
Transformer 模型 1
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。
1. Transformer 结构
首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构(输入中文,输出英文)。
Transformer 整体结构
可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:
第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding 和单词位置的 Embedding
Transformer 的输入表示
第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。
本文共计4168个文字,预计阅读时间需要17分钟。
Transformer 模型是 Google 团队在 2017 年提出的一种 NLP 经典模型。与 BERT 等热门模型类似,Transformer 也基于 Transformer 架构。该模型采用了 Self-Attention 机制,无需 RNN 的顺序结构,实现了高效的信息处理。
Transformer 模型 1
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。
1. Transformer 结构
首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构(输入中文,输出英文)。
Transformer 整体结构
可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:
第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding 和单词位置的 Embedding
Transformer 的输入表示
第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。

