Bert手册5中，如何提升推理和训练速度，同时实现内存压缩？

2026-05-06 07:091阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

本文共计1668个文字，预计阅读时间需要7分钟。

AlbertA+LiteBert的简写，通过词向量矩阵分解以及transformer block的参数共享，大大降低了Bert的参数量级。在我阅读Albert论文之前，由于Albert与Bert、剪枝一起被归入模型压缩方案，导致剪枝一词出现在结果中。

Albert是A Lite Bert的缩写，通过词向量矩阵分解，以及transformer block的参数共享，大大降低了Bert的参数量级。在我读Albert论文之前，因为Albert和蒸馏，剪枝一起被归在模型压缩方案，导致我一直以为Albert也是为了优化Bert的推理速度，但其实Albert主要用在模型参数（内存）压缩，以及训练速度优化，在推理速度上并没有提升。最近写的文本分类库里加入了Albert预训练模型，有在chinanews上已经微调好可以开箱即用的模型，感兴趣戳这里SimpleClassification

Albert是A Lite Bert的缩写，确实Albert通过词向量矩阵分解，以及transformer block的参数共享，大大降低了Bert的参数量级。在我读Albert论文之前，因为Albert和蒸馏，剪枝一起被归在模型压缩方案，导致我一直以为Albert也是为了优化Bert的推理速度，但其实Albert更多用在模型参数（内存）压缩，以及训练速度优化，在推理速度上并没有提升。如果说蒸馏任务是把Bert变矮瘦，那Albert就是把Bert变得矮胖。

阅读全文

标签：BERT 不完全手册推理提速

本文共计1668个文字，预计阅读时间需要7分钟。

阅读全文

标签：BERT 不完全手册推理提速

相关推荐

相关推荐