Transformer模型1如何应对长尾词的挑战？

2026-04-10 08:141阅读0评论SEO资源

内容介绍
文章标签
相关推荐

本文共计4168个文字，预计阅读时间需要17分钟。

Transformer 模型是 Google 团队在 2017 年提出的一种 NLP 经典模型。与 BERT 等热门模型类似，Transformer 也基于 Transformer 架构。该模型采用了 Self-Attention 机制，无需 RNN 的顺序结构，实现了高效的信息处理。

Transformer 模型 1

Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制，不采用 RNN 的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

1. Transformer 结构

首先介绍 Transformer 的整体结构，下图是 Transformer 用于中英文翻译的整体结构(输入中文，输出英文)。

Transformer 整体结构

可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下：

第一步：获取输入句子的每一个单词的表示向量 X，X由单词的 Embedding 和单词位置的 Embedding

Transformer 的输入表示

第二步：将得到的单词表示向量矩阵 (如上图所示，每一行是一个单词的表示 x) 传入 Encoder 中，经过 6 个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C，如下图。

阅读全文

标签：Transformer 模型