京东的电商搜索排序算法,是否采用苗大东提出的强化学习技术?
- 内容介绍
- 文章标签
- 相关推荐
本文共计5209个文字,预计阅读时间需要21分钟。
导读:电商场景的搜索排序算法基于用户搜索请求,经过召回、粗排、精排、重排与混排等模块,将最终结果呈现给用户。算法的优化目标在于提升用户转化率。传统的有监督训练方式,每个训练样本需包含相关特征和标签。
导读: 电商场景的搜索排序算法根据用户搜索请求,经过召回、粗排、精排、重排与混排等模块将最终的结果呈现给用户,算法的优化目标是提升用户转化。传统的有监督训练方式,每一步迭代的过程中优化当前排序结果的即时反馈收益。但是,实际上用户和搜索系统之间不断交互,用户状态也在不断变化,每一次交互后排序结果和用户反馈也会对后续排序产生影响。因此,我们通过强化学习来建模用户和搜索系统之间的交互过程,优化长期累积收益。目前这个工作已经在京东全量上线。
今天的介绍会围绕下面五点展开:
- 搜索排序场景及算法概述
- 强化学习在搜索排序中的建模过程
- 基于RNN用户状态转移建模
- 基于DDPG的长期价值建模
- 规划与展望
--
01 搜索排序场景及算法概述首先和大家分享下搜索排序的典型场景以及常用的算法。
搜索排序场景下的主要优化目标是提升用户转化率,常用的算法分别从用户建模角度(DIN、DIEN、Memory Network等)和多目标建模角度(ESMM、MOE、MMOE等)进行设计。这些模型都采用了有监督的训练方式,在每一步迭代的过程中都是优化当前排序结果的即时奖励。而实际上用户和搜索系统之间存在交互,用户状态是不断改变的,这也使得每一步排序结果和反馈跟后续排序有相关性。
本文共计5209个文字,预计阅读时间需要21分钟。
导读:电商场景的搜索排序算法基于用户搜索请求,经过召回、粗排、精排、重排与混排等模块,将最终结果呈现给用户。算法的优化目标在于提升用户转化率。传统的有监督训练方式,每个训练样本需包含相关特征和标签。
导读: 电商场景的搜索排序算法根据用户搜索请求,经过召回、粗排、精排、重排与混排等模块将最终的结果呈现给用户,算法的优化目标是提升用户转化。传统的有监督训练方式,每一步迭代的过程中优化当前排序结果的即时反馈收益。但是,实际上用户和搜索系统之间不断交互,用户状态也在不断变化,每一次交互后排序结果和用户反馈也会对后续排序产生影响。因此,我们通过强化学习来建模用户和搜索系统之间的交互过程,优化长期累积收益。目前这个工作已经在京东全量上线。
今天的介绍会围绕下面五点展开:
- 搜索排序场景及算法概述
- 强化学习在搜索排序中的建模过程
- 基于RNN用户状态转移建模
- 基于DDPG的长期价值建模
- 规划与展望
--
01 搜索排序场景及算法概述首先和大家分享下搜索排序的典型场景以及常用的算法。
搜索排序场景下的主要优化目标是提升用户转化率,常用的算法分别从用户建模角度(DIN、DIEN、Memory Network等)和多目标建模角度(ESMM、MOE、MMOE等)进行设计。这些模型都采用了有监督的训练方式,在每一步迭代的过程中都是优化当前排序结果的即时奖励。而实际上用户和搜索系统之间存在交互,用户状态是不断改变的,这也使得每一步排序结果和反馈跟后续排序有相关性。

