Transformer模型1如何应对长尾词的挑战?

2026-04-10 08:141阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计4168个文字,预计阅读时间需要17分钟。

Transformer模型1如何应对长尾词的挑战?

Transformer 模型是 Google 团队在 2017 年提出的一种 NLP 经典模型。与 BERT 等热门模型类似,Transformer 也基于 Transformer 架构。该模型采用了 Self-Attention 机制,无需 RNN 的顺序结构,实现了高效的信息处理。

Transformer 模型 1


Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。

1. Transformer 结构

首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构(输入中文,输出英文)。


Transformer 整体结构

可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:

第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding 和单词位置的 Embedding

Transformer 的输入表示

第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。

阅读全文

本文共计4168个文字,预计阅读时间需要17分钟。

Transformer模型1如何应对长尾词的挑战?

Transformer 模型是 Google 团队在 2017 年提出的一种 NLP 经典模型。与 BERT 等热门模型类似,Transformer 也基于 Transformer 架构。该模型采用了 Self-Attention 机制,无需 RNN 的顺序结构,实现了高效的信息处理。

Transformer 模型 1


Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。

1. Transformer 结构

首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构(输入中文,输出英文)。


Transformer 整体结构

可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:

第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding 和单词位置的 Embedding

Transformer 的输入表示

第二步:将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图。

阅读全文