如何绕过BERT的MASK策略,改用XLNET实现?

2026-05-05 21:230阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2618个文字,预计阅读时间需要11分钟。

如何绕过BERT的MASK策略,改用XLNET实现?

基于随机token的MASK是BERT实现双向上下文信息编码的核心。然而,MASK策略本身存在一些问题:MASK只在预训练任务中存在,在微调中不存在;BERT则是通过替换部分随机token的A来实现。

基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题

  • MASK的不一致性:MASK只在预训练任务中存在,在微调中不存在,Bert只是通过替换部分的随机MASK来降低不一致性的影响
  • 独立性假设:对MASK的预测是基于独立概率而不是联合概率,模型并不会考虑MASK之间的条件关联
  • MASK训练低效:每次只遮盖15%的token,每个batch的模型更新只基于这15%的input,导致模型训练效率较低

MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们使用两种截然不同的方案实现了在下游迁移的Encoder中完全抛弃MASK来学习双向上下文信息。正在施工中的代码库也接入了这两种预训练模型,同时支持半监督,领域迁移,降噪loss等模型优化项,感兴趣的戳这里>>SimpleClassification

XLNET

XLNET主要的创新在于通过排列组合的乱序语言模型,在不依赖MASK的情况下捕捉双向上下文信息,从而避免了MASK存在带来的不一致性。

阅读全文
标签:mask策略

本文共计2618个文字,预计阅读时间需要11分钟。

如何绕过BERT的MASK策略,改用XLNET实现?

基于随机token的MASK是BERT实现双向上下文信息编码的核心。然而,MASK策略本身存在一些问题:MASK只在预训练任务中存在,在微调中不存在;BERT则是通过替换部分随机token的A来实现。

基于随机token MASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题

  • MASK的不一致性:MASK只在预训练任务中存在,在微调中不存在,Bert只是通过替换部分的随机MASK来降低不一致性的影响
  • 独立性假设:对MASK的预测是基于独立概率而不是联合概率,模型并不会考虑MASK之间的条件关联
  • MASK训练低效:每次只遮盖15%的token,每个batch的模型更新只基于这15%的input,导致模型训练效率较低

MASK有这么多的问题,那能否绕过MASK策略来捕捉双向上下文信息呢?下面介绍两种方案XLNET,Electra,它们使用两种截然不同的方案实现了在下游迁移的Encoder中完全抛弃MASK来学习双向上下文信息。正在施工中的代码库也接入了这两种预训练模型,同时支持半监督,领域迁移,降噪loss等模型优化项,感兴趣的戳这里>>SimpleClassification

XLNET

XLNET主要的创新在于通过排列组合的乱序语言模型,在不依赖MASK的情况下捕捉双向上下文信息,从而避免了MASK存在带来的不一致性。

阅读全文
标签:mask策略