AI达人营二期NLP课程,如何初学垃圾邮件识别?
- 内容介绍
- 文章标签
- 相关推荐
本文共计559个文字,预计阅读时间需要3分钟。
相关专题
Transformer进行堆叠,形成一个更深的神经网络,如下图所示
最终,经过多层Transformer的堆叠后bert的主体如下所示
3.1.3bert模型应用
- More Steps(更多训练)
- Large Batch(更大批次)
- Adam optimizer
Adam借鉴了Kingma等人的改进,使用β1=0.9、β2=0.999、ϵ=1e−6,并且L2的衰减权重设置为0.01,在前10000steps是warmed up学习率是1e−4,并且是线性的衰减,所有层和Attention权重的dropout=0.1,预训练模型训练1,000,000steps最小batch256,最大batch512
- Next Sentence Prediction
3.2.2roberta模型结构
### 3.2.3roberta模型训练而且所需花费的时间也很长,相反,若使用的是roberta,其算法的收敛速度,训练速度相比于bert来说都有一定的改进,如下图所示
从而我们可以得出一个结论,就是如果我们有充裕的时间的话,可以使用bert模型进行训练数据,倘若我们想比较快的能够显示出结果,那么我们可以使用roberta来进行算法的实现,因为其两者的准确率在epoch达到10次以上后,其实两者的准确率都相当的高
本文共计559个文字,预计阅读时间需要3分钟。
相关专题
Transformer进行堆叠,形成一个更深的神经网络,如下图所示
最终,经过多层Transformer的堆叠后bert的主体如下所示
3.1.3bert模型应用
- More Steps(更多训练)
- Large Batch(更大批次)
- Adam optimizer
Adam借鉴了Kingma等人的改进,使用β1=0.9、β2=0.999、ϵ=1e−6,并且L2的衰减权重设置为0.01,在前10000steps是warmed up学习率是1e−4,并且是线性的衰减,所有层和Attention权重的dropout=0.1,预训练模型训练1,000,000steps最小batch256,最大batch512
- Next Sentence Prediction
3.2.2roberta模型结构
### 3.2.3roberta模型训练而且所需花费的时间也很长,相反,若使用的是roberta,其算法的收敛速度,训练速度相比于bert来说都有一定的改进,如下图所示
从而我们可以得出一个结论,就是如果我们有充裕的时间的话,可以使用bert模型进行训练数据,倘若我们想比较快的能够显示出结果,那么我们可以使用roberta来进行算法的实现,因为其两者的准确率在epoch达到10次以上后,其实两者的准确率都相当的高

