2023百度AI商业创新赛赛道1,非官方基准方案有哪些?

2026-05-07 05:042阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2056个文字,预计阅读时间需要9分钟。

2023百度AI商业创新赛赛道1,非官方基准方案有哪些?

相关专题

PS : 本人也是第一次尝试完成推荐系统相关的数据处理以及demo实现,若有什么问题请评论区留言交流,或加微信沟通(同昵称)

本次比赛提供N天广告日志抽样数据(数据已脱敏):

  • 训练集:前N-1天数据,供参赛者训练/调试模型
  • 测试集:第N天数据,非公开

赛题介绍

本次任务提供百度广告投放场景的海量真实数据,希望参赛者通过采用机器学习方式,构建转化率预估模型, 根据给定用户及广告信息,预估转化概率,即 pcvr = p(cv=1 | user, ad)。

数据说明

数据格式 每一行数据为一次广告点击,共计5个域,各域间 \t 分隔:

字段 说明
log_id 样本id
t1 转化类型1
t2 转化类型2
t3 转化类型3
特征 包含用户及广告信息

样本示例: (1)logid \t 1 \t - \t - \t 特征字段,属于第一个转化类型,是正样本 (2)logid \t - \t 1 \t - \t 特征字段,属于第二个转化类型,是正样本 (3)logid \t - \t - \t 1 \t 特征字段,属于第三个转化类型,是正样本 (4)logid \t 0 \t - \t - \t 特征字段,属于第一个转化类型,是负样本 (5)logid \t - \t 0 \t - \t 特征字段,属于第二个转化类型,是负样本 (6)logid \t - \t - \t 0 \t 特征字段,属于第三个转化类型,是负样本

       

example:3601136181 - - 0 704:1 227:2 4630318:3 4630319:4 5:5 6:6 319:7 8:8 75:9 1715101:10 63328:10 412248:10 263656:10 4630320:10 150154:10 412250:10 63336:10 465:11 21:13 22:14 29442:15 24:16 630457:17 4630321:17 776254:17 4630322:17 325042:17 4630323:17 238029:17 325041:17 1690121:17 4630324:17 31148:18 3462866:18 174535:18 174536:18 675808 :18 675809:18 131969:18 36517:18 4259795:18 616316:18 2085787:19 30093:20 31406:20 31407:20 63351:20 46:21 4630325:22 4630326:22 4630327:22 4630328:22 4285695:22 4630329:22 4630330:22 4630331:22 4630332:22 4630333:22 2431996:22 4630334:22 1037304:22 4630335:22 1984706:22 4630336:22 2645081:22 816199:22 4630337:22 4630338:22 2085788:23 3161:24 3742:25 150:26 601:26 182:26 62:26 184:26 185:26 345:26 155:26 156:26 1258:26 158:26 70:26

       

特征类型

特征字段中包含26个不同的特征,各特征的信息类别如下:

字段号 说明
标号1~13 用户基础信息
标号14~16 场景信息
标号17~24 广告信息
标号25~26 用户多值信息

注:本次比赛分为初赛和复赛,初赛的测试集随本项目进行发布,复赛数据集,将在复赛开始时间进行发布

所有样本已按时间先后排序,用户及广告信息已转为id进行脱敏。
使用组合特征及多目标建模有助于提高模型效果。
比赛最终根据所有转化类型样本整体auc排名。
       

评分标准

0.90 =< pcoc <= 1.10方可进入榜单排序。 主排序指标为auc,auc相同情况下按照 abs(pcoc - 1)升序。 指标说明:

auc(Area under curve):ROC曲线下的面积,越接近于1越好

pcoc(predict cv over cv) :预估转化率 / 真实转化率,越接近于1越好

  1. 数据处理: 数据解析(我这里就简单粗暴的将特征全部拼在一起,多特征的取均值处理)
  2. 网络搭建: 采用深度网络分类deepfm(自己写的非官方,若有问题欢迎评论探讨)
  3. 训练
  4. 验证

本文共计2056个文字,预计阅读时间需要9分钟。

2023百度AI商业创新赛赛道1,非官方基准方案有哪些?

相关专题

PS : 本人也是第一次尝试完成推荐系统相关的数据处理以及demo实现,若有什么问题请评论区留言交流,或加微信沟通(同昵称)

本次比赛提供N天广告日志抽样数据(数据已脱敏):

  • 训练集:前N-1天数据,供参赛者训练/调试模型
  • 测试集:第N天数据,非公开

赛题介绍

本次任务提供百度广告投放场景的海量真实数据,希望参赛者通过采用机器学习方式,构建转化率预估模型, 根据给定用户及广告信息,预估转化概率,即 pcvr = p(cv=1 | user, ad)。

数据说明

数据格式 每一行数据为一次广告点击,共计5个域,各域间 \t 分隔:

字段 说明
log_id 样本id
t1 转化类型1
t2 转化类型2
t3 转化类型3
特征 包含用户及广告信息

样本示例: (1)logid \t 1 \t - \t - \t 特征字段,属于第一个转化类型,是正样本 (2)logid \t - \t 1 \t - \t 特征字段,属于第二个转化类型,是正样本 (3)logid \t - \t - \t 1 \t 特征字段,属于第三个转化类型,是正样本 (4)logid \t 0 \t - \t - \t 特征字段,属于第一个转化类型,是负样本 (5)logid \t - \t 0 \t - \t 特征字段,属于第二个转化类型,是负样本 (6)logid \t - \t - \t 0 \t 特征字段,属于第三个转化类型,是负样本

       

example:3601136181 - - 0 704:1 227:2 4630318:3 4630319:4 5:5 6:6 319:7 8:8 75:9 1715101:10 63328:10 412248:10 263656:10 4630320:10 150154:10 412250:10 63336:10 465:11 21:13 22:14 29442:15 24:16 630457:17 4630321:17 776254:17 4630322:17 325042:17 4630323:17 238029:17 325041:17 1690121:17 4630324:17 31148:18 3462866:18 174535:18 174536:18 675808 :18 675809:18 131969:18 36517:18 4259795:18 616316:18 2085787:19 30093:20 31406:20 31407:20 63351:20 46:21 4630325:22 4630326:22 4630327:22 4630328:22 4285695:22 4630329:22 4630330:22 4630331:22 4630332:22 4630333:22 2431996:22 4630334:22 1037304:22 4630335:22 1984706:22 4630336:22 2645081:22 816199:22 4630337:22 4630338:22 2085788:23 3161:24 3742:25 150:26 601:26 182:26 62:26 184:26 185:26 345:26 155:26 156:26 1258:26 158:26 70:26

       

特征类型

特征字段中包含26个不同的特征,各特征的信息类别如下:

字段号 说明
标号1~13 用户基础信息
标号14~16 场景信息
标号17~24 广告信息
标号25~26 用户多值信息

注:本次比赛分为初赛和复赛,初赛的测试集随本项目进行发布,复赛数据集,将在复赛开始时间进行发布

所有样本已按时间先后排序,用户及广告信息已转为id进行脱敏。
使用组合特征及多目标建模有助于提高模型效果。
比赛最终根据所有转化类型样本整体auc排名。
       

评分标准

0.90 =< pcoc <= 1.10方可进入榜单排序。 主排序指标为auc,auc相同情况下按照 abs(pcoc - 1)升序。 指标说明:

auc(Area under curve):ROC曲线下的面积,越接近于1越好

pcoc(predict cv over cv) :预估转化率 / 真实转化率,越接近于1越好

  1. 数据处理: 数据解析(我这里就简单粗暴的将特征全部拼在一起,多特征的取均值处理)
  2. 网络搭建: 采用深度网络分类deepfm(自己写的非官方,若有问题欢迎评论探讨)
  3. 训练
  4. 验证