如何绕过BERT的MASK策略,改用XLNET实现?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2825个文字,预计阅读时间需要12分钟。
基于随机token MASK 是 Bert 实现双向上下文信息编码的核心。然而,MASK 策略本身存在一些问题,包括预训练和下游迁移中 MASK 的不一致性,以及 MASK token 之间独立性假设的偏差,以及高达 15% 的 token 为 MASK 的情况。
基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题,包括预训练和下游迁移中MASK的不一致性,被MASK token之间的独立性假设,以及只MASK 15%的token带来的训练低效问题等等~ 那MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们分别通过乱序排列语言模型,和生成器-判别器的方案实现了不依赖MASK的双向语言模型。正在施工中的代码库也接入了这两种预训练模型,同时支持半监督,领域迁移,降噪loss,蒸馏等模型优化项,感兴趣的戳这里>>SimpleClassification基于随机token MASK是Bert能实现双向上下文信息编码的核心。
本文共计2825个文字,预计阅读时间需要12分钟。
基于随机token MASK 是 Bert 实现双向上下文信息编码的核心。然而,MASK 策略本身存在一些问题,包括预训练和下游迁移中 MASK 的不一致性,以及 MASK token 之间独立性假设的偏差,以及高达 15% 的 token 为 MASK 的情况。
基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题,包括预训练和下游迁移中MASK的不一致性,被MASK token之间的独立性假设,以及只MASK 15%的token带来的训练低效问题等等~ 那MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们分别通过乱序排列语言模型,和生成器-判别器的方案实现了不依赖MASK的双向语言模型。正在施工中的代码库也接入了这两种预训练模型,同时支持半监督,领域迁移,降噪loss,蒸馏等模型优化项,感兴趣的戳这里>>SimpleClassification基于随机token MASK是Bert能实现双向上下文信息编码的核心。

