Bert在NLG方面有何局限？MASSUNILMBART能否替代？

2026-05-23 05:000阅读0评论SEO教程

内容介绍
文章标签
相关推荐

本文共计659个文字，预计阅读时间需要3分钟。

BERT利用双向LM处理语言理解问题，GPT通过单向LM生成问题。若想兼具BERT的双向理解和GPT的生成能力，年轻人不应轻易选择。这类需求，主要包含seq2seq中的强生成能力。

Bert通过双向LM处理语言理解问题，GPT则通过单向LM解决生成问题，那如果既想拥有BERT的双向理解能力，又想做生成嘞？成年人才不要做选择！这类需求，主要包括seq2seq中生成对输入有强依赖的场景，例如翻译，生成式问答，文本摘要等等，本章分别介绍3种不同的方案：UNILM，MASS，BART

Bert通过双向LM处理语言理解问题，GPT则通过单向LM解决生成问题，那如果既想拥有BERT的双向理解能力，又想做生成嘞？成年人才不要做选择！这类需求，主要包括seq2seq中生成对输入有强依赖的场景，例如翻译，生成式问答，文本摘要等等

最初Transformer的Encoder+Deocder结构是在机器翻译领域，Encoder的部分通过双向LM来抽取输入的全部上下文信息，Decoder通过单向LM在Encoder抽取信息的基础上完成生成任务。但后续的预训练模型，Bert和GPT各自选取了Transformer的一部分来实现各自的目标。Bert只用了Encoder，核心是基于AutoEncoding reconstruction loss的双向LM，适用于NLU任务。GPT只用了Decoder，核心是基于AutoRegression perplexity loss的单向语言模型，适用于NLG任务。那想要兼顾双向理解和生成能力，就要探索如何能让AE和AR在训练过程进行梦幻联动，以下分别介绍3种不同的方案

UNILM 1.0

UNILM完美诠释了MASK在手，要啥都有的极简设计原理。通过三种不同的attention MASK，使用Multitask的训练方式在相同的Transformer backbone里面实现了三种任务的融合，分别是双向LM（BERT），单向LM（GPT），seq2seqLM(transformer)。

阅读全文

标签：BERT 不完全手册不能做

本文共计659个文字，预计阅读时间需要3分钟。

UNILM 1.0

阅读全文

标签：BERT 不完全手册不能做

相关推荐

相关推荐