ESimCSE系列代码中，如何实现大规模无监督文本表示学习？

2026-05-26 15:420阅读0评论SEO教程

本文共计2472个文字，预计阅读时间需要10分钟。

首先，BERT、BERT-wwm、RABERT等模型在解决对比学习的一些问题上并未体现出显著优势。具体来说，这里不提及SimCSE等对比学习方式，那么这些模型到底解决了哪些问题呢？

这些问题主要涉及通过拉近相似样本的距离和拉远不同样本的距离来刻画样本间的相似性。简单来说，就是如何通过模型来画出样本的特征样子。

首先 bert ber_wwm rabert 等模型没有解决对比学习的一些问题在这里不提了

SimCSE等对比学习方法到底在解决什么问题？

它是通过拉近相同样本的距离、拉远不同样本的距离，来刻画样本本身的表示，正好可以解决BERT表示的塌缩问题。

ESimCSE

在语义文本相似性（STS）任务上效果竟然还真的优于BERT base版的SimCSE有2个点（Spearman相关系数），并且提出了两大优化方法，解决了SimCSE遗留的两个问题：

1、SimCSE通过dropout构建的正例对包含相同长度的信息（原因：Transformer的Position Embedding），会使模型倾向于认为相同或相似长度的句子在语义上更相似（insight很合理）；

2、更大的batch size会导致SimCSE性能下降（这点确实很困扰）;

所以从以上可以看出，ESimCSE并没有使用最小的数据增强方法dropout构建正例对（毕竟有利也有弊哈），并且还扩展了负例对的构建，鼓励模型进行更精细的学习。这点SimCSE并没有考虑，而是直接将一个batch内与自己不同的样本都作为负样本了。

本文共计2472个文字，预计阅读时间需要10分钟。

这些问题主要涉及通过拉近相似样本的距离和拉远不同样本的距离来刻画样本间的相似性。简单来说，就是如何通过模型来画出样本的特征样子。

首先 bert ber_wwm rabert 等模型没有解决对比学习的一些问题在这里不提了

它是通过拉近相同样本的距离、拉远不同样本的距离，来刻画样本本身的表示，正好可以解决BERT表示的塌缩问题。

ESimCSE

2、更大的batch size会导致SimCSE性能下降（这点确实很困扰）;