CoLAKE：如何同步训练非结构化语言与结构化知识表征？

2026-05-22 23:090阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计1782个文字，预计阅读时间需要8分钟。

原创作者|疯狂的Max | 论文CoLAKE：Contextualized Language and Knowledge Embedding 解读 01 背景与动机 + 随着预训练模型在NLP领域的广泛应用，一系列研究都致力于将外部知识融入大规模预训练模型中，以期提升模型的表现。

©原创作者| 疯狂的Max

论文CoLAKE:Contextualized Language and Knowledge Embedding 解读

01 背景与动机

随着预训练模型在NLP领域各大任务大放异彩，一系列研究都致力于将外部知识融入大规模预训练模型，比如ERNIE[1]和KnowBERT[2]，然而这些模型的局限性可以总结为以下三个方面：

（1）entity embedding都是通过一些knowledge embedding（KE） models，比如用TransE[3]，预先提前训练好的。因此模型并不是一个真正的同步训练知识表征和语言表征的综合模型；

（2）只利用了知识图谱中的entity embedding来提升预训练模型，很难完全获取的知识图谱中一个实体丰富的上下文信息。因此对应的效能增益也就局限于预先训练好的 entity embedding的质量。

（3）预训练好的entity embedding是固定的，并且在知识图谱稍作改变时都需要重新训练。针对这三点局限，本文作者提出一种CoLAKE模型，通过改造模型的输入和结构，沿用预训练模型的MLM目标，对语言和知识的表征同时进行同步训练，将其统一在一个一致的表征空间中去。不同于前人的模型，CoLAKE根据知识的上下文和语言的上下文动态的表征一个实体。

为了解决非结构化文本与知识之间的异构性冲突，CoLAKE将两者以一种统一的数据结果将两者整合起来，形成word-knowledge graph，将其作为预训练数据在改造后的Transformer encoder模型上进行预训练。

阅读全文