2023百度AI商业创新赛赛道1,非官方基准方案有哪些?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2056个文字,预计阅读时间需要9分钟。
相关专题
PS : 本人也是第一次尝试完成推荐系统相关的数据处理以及demo实现,若有什么问题请评论区留言交流,或加微信沟通(同昵称)
本次比赛提供N天广告日志抽样数据(数据已脱敏):
- 训练集:前N-1天数据,供参赛者训练/调试模型
- 测试集:第N天数据,非公开
赛题介绍
本次任务提供百度广告投放场景的海量真实数据,希望参赛者通过采用机器学习方式,构建转化率预估模型, 根据给定用户及广告信息,预估转化概率,即 pcvr = p(cv=1 | user, ad)。
数据说明
数据格式 每一行数据为一次广告点击,共计5个域,各域间 \t 分隔:
| 字段 | 说明 |
|---|---|
| log_id | 样本id |
| t1 | 转化类型1 |
| t2 | 转化类型2 |
| t3 | 转化类型3 |
| 特征 | 包含用户及广告信息 |
样本示例: (1)logid \t 1 \t - \t - \t 特征字段,属于第一个转化类型,是正样本 (2)logid \t - \t 1 \t - \t 特征字段,属于第二个转化类型,是正样本 (3)logid \t - \t - \t 1 \t 特征字段,属于第三个转化类型,是正样本 (4)logid \t 0 \t - \t - \t 特征字段,属于第一个转化类型,是负样本 (5)logid \t - \t 0 \t - \t 特征字段,属于第二个转化类型,是负样本 (6)logid \t - \t - \t 0 \t 特征字段,属于第三个转化类型,是负样本
example:3601136181 - - 0 704:1 227:2 4630318:3 4630319:4 5:5 6:6 319:7 8:8 75:9 1715101:10 63328:10 412248:10 263656:10 4630320:10 150154:10 412250:10 63336:10 465:11 21:13 22:14 29442:15 24:16 630457:17 4630321:17 776254:17 4630322:17 325042:17 4630323:17 238029:17 325041:17 1690121:17 4630324:17 31148:18 3462866:18 174535:18 174536:18 675808 :18 675809:18 131969:18 36517:18 4259795:18 616316:18 2085787:19 30093:20 31406:20 31407:20 63351:20 46:21 4630325:22 4630326:22 4630327:22 4630328:22 4285695:22 4630329:22 4630330:22 4630331:22 4630332:22 4630333:22 2431996:22 4630334:22 1037304:22 4630335:22 1984706:22 4630336:22 2645081:22 816199:22 4630337:22 4630338:22 2085788:23 3161:24 3742:25 150:26 601:26 182:26 62:26 184:26 185:26 345:26 155:26 156:26 1258:26 158:26 70:26
特征类型
特征字段中包含26个不同的特征,各特征的信息类别如下:
| 字段号 | 说明 |
|---|---|
| 标号1~13 | 用户基础信息 |
| 标号14~16 | 场景信息 |
| 标号17~24 | 广告信息 |
| 标号25~26 | 用户多值信息 |
注:本次比赛分为初赛和复赛,初赛的测试集随本项目进行发布,复赛数据集,将在复赛开始时间进行发布
所有样本已按时间先后排序,用户及广告信息已转为id进行脱敏。
使用组合特征及多目标建模有助于提高模型效果。
比赛最终根据所有转化类型样本整体auc排名。
评分标准
0.90 =< pcoc <= 1.10方可进入榜单排序。 主排序指标为auc,auc相同情况下按照 abs(pcoc - 1)升序。 指标说明:
auc(Area under curve):ROC曲线下的面积,越接近于1越好
pcoc(predict cv over cv) :预估转化率 / 真实转化率,越接近于1越好
- 数据处理: 数据解析(我这里就简单粗暴的将特征全部拼在一起,多特征的取均值处理)
- 网络搭建: 采用深度网络分类deepfm(自己写的非官方,若有问题欢迎评论探讨)
- 训练
- 验证
本文共计2056个文字,预计阅读时间需要9分钟。
相关专题
PS : 本人也是第一次尝试完成推荐系统相关的数据处理以及demo实现,若有什么问题请评论区留言交流,或加微信沟通(同昵称)
本次比赛提供N天广告日志抽样数据(数据已脱敏):
- 训练集:前N-1天数据,供参赛者训练/调试模型
- 测试集:第N天数据,非公开
赛题介绍
本次任务提供百度广告投放场景的海量真实数据,希望参赛者通过采用机器学习方式,构建转化率预估模型, 根据给定用户及广告信息,预估转化概率,即 pcvr = p(cv=1 | user, ad)。
数据说明
数据格式 每一行数据为一次广告点击,共计5个域,各域间 \t 分隔:
| 字段 | 说明 |
|---|---|
| log_id | 样本id |
| t1 | 转化类型1 |
| t2 | 转化类型2 |
| t3 | 转化类型3 |
| 特征 | 包含用户及广告信息 |
样本示例: (1)logid \t 1 \t - \t - \t 特征字段,属于第一个转化类型,是正样本 (2)logid \t - \t 1 \t - \t 特征字段,属于第二个转化类型,是正样本 (3)logid \t - \t - \t 1 \t 特征字段,属于第三个转化类型,是正样本 (4)logid \t 0 \t - \t - \t 特征字段,属于第一个转化类型,是负样本 (5)logid \t - \t 0 \t - \t 特征字段,属于第二个转化类型,是负样本 (6)logid \t - \t - \t 0 \t 特征字段,属于第三个转化类型,是负样本
example:3601136181 - - 0 704:1 227:2 4630318:3 4630319:4 5:5 6:6 319:7 8:8 75:9 1715101:10 63328:10 412248:10 263656:10 4630320:10 150154:10 412250:10 63336:10 465:11 21:13 22:14 29442:15 24:16 630457:17 4630321:17 776254:17 4630322:17 325042:17 4630323:17 238029:17 325041:17 1690121:17 4630324:17 31148:18 3462866:18 174535:18 174536:18 675808 :18 675809:18 131969:18 36517:18 4259795:18 616316:18 2085787:19 30093:20 31406:20 31407:20 63351:20 46:21 4630325:22 4630326:22 4630327:22 4630328:22 4285695:22 4630329:22 4630330:22 4630331:22 4630332:22 4630333:22 2431996:22 4630334:22 1037304:22 4630335:22 1984706:22 4630336:22 2645081:22 816199:22 4630337:22 4630338:22 2085788:23 3161:24 3742:25 150:26 601:26 182:26 62:26 184:26 185:26 345:26 155:26 156:26 1258:26 158:26 70:26
特征类型
特征字段中包含26个不同的特征,各特征的信息类别如下:
| 字段号 | 说明 |
|---|---|
| 标号1~13 | 用户基础信息 |
| 标号14~16 | 场景信息 |
| 标号17~24 | 广告信息 |
| 标号25~26 | 用户多值信息 |
注:本次比赛分为初赛和复赛,初赛的测试集随本项目进行发布,复赛数据集,将在复赛开始时间进行发布
所有样本已按时间先后排序,用户及广告信息已转为id进行脱敏。
使用组合特征及多目标建模有助于提高模型效果。
比赛最终根据所有转化类型样本整体auc排名。
评分标准
0.90 =< pcoc <= 1.10方可进入榜单排序。 主排序指标为auc,auc相同情况下按照 abs(pcoc - 1)升序。 指标说明:
auc(Area under curve):ROC曲线下的面积,越接近于1越好
pcoc(predict cv over cv) :预估转化率 / 真实转化率,越接近于1越好
- 数据处理: 数据解析(我这里就简单粗暴的将特征全部拼在一起,多特征的取均值处理)
- 网络搭建: 采用深度网络分类deepfm(自己写的非官方,若有问题欢迎评论探讨)
- 训练
- 验证

