AI达人营二期NLP课程,如何初学垃圾邮件识别?

2026-05-07 10:062阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计559个文字,预计阅读时间需要3分钟。

AI达人营二期NLP课程,如何初学垃圾邮件识别?

相关专题

Transformers模型结构

Transformer进行堆叠,形成一个更深的神经网络,如下图所示

对Transformers进行堆叠

最终,经过多层Transformer的堆叠后bert的主体如下所示

bert主体结构

3.1.3bert模型应用

不同算法预训练数据量对比
  • More Steps(更多训练)
  • Large Batch(更大批次)
  • Adam optimizer

Adam借鉴了Kingma等人的改进,使用β1=0.9β1=0.9、β2=0.999β2=0.999、ϵ=1e6ϵ=1e−6,并且L2L2的衰减权重设置为0.010.01,在前10000stepssteps是warmed up学习率是1e41e−4,并且是线性的衰减,所有层和Attention权重的dropout=0.1,预训练模型训练1,000,000steps最小batch256,最大batch512

Transformer使用的warmed up学习率
  • Next Sentence Prediction

3.2.2roberta模型结构

### 3.2.3roberta模型训练
使用roberta模型训练
使用bert算法性能监控

而且所需花费的时间也很长,相反,若使用的是roberta,其算法的收敛速度,训练速度相比于bert来说都有一定的改进,如下图所示

使用roberta算法性能监控

从而我们可以得出一个结论,就是如果我们有充裕的时间的话,可以使用bert模型进行训练数据,倘若我们想比较快的能够显示出结果,那么我们可以使用roberta来进行算法的实现,因为其两者的准确率在epoch达到10次以上后,其实两者的准确率都相当的高

本文共计559个文字,预计阅读时间需要3分钟。

AI达人营二期NLP课程,如何初学垃圾邮件识别?

相关专题

Transformers模型结构

Transformer进行堆叠,形成一个更深的神经网络,如下图所示

对Transformers进行堆叠

最终,经过多层Transformer的堆叠后bert的主体如下所示

bert主体结构

3.1.3bert模型应用

不同算法预训练数据量对比
  • More Steps(更多训练)
  • Large Batch(更大批次)
  • Adam optimizer

Adam借鉴了Kingma等人的改进,使用β1=0.9β1=0.9、β2=0.999β2=0.999、ϵ=1e6ϵ=1e−6,并且L2L2的衰减权重设置为0.010.01,在前10000stepssteps是warmed up学习率是1e41e−4,并且是线性的衰减,所有层和Attention权重的dropout=0.1,预训练模型训练1,000,000steps最小batch256,最大batch512

Transformer使用的warmed up学习率
  • Next Sentence Prediction

3.2.2roberta模型结构

### 3.2.3roberta模型训练
使用roberta模型训练
使用bert算法性能监控

而且所需花费的时间也很长,相反,若使用的是roberta,其算法的收敛速度,训练速度相比于bert来说都有一定的改进,如下图所示

使用roberta算法性能监控

从而我们可以得出一个结论,就是如果我们有充裕的时间的话,可以使用bert模型进行训练数据,倘若我们想比较快的能够显示出结果,那么我们可以使用roberta来进行算法的实现,因为其两者的准确率在epoch达到10次以上后,其实两者的准确率都相当的高