京东的电商搜索排序算法，是否采用苗大东提出的强化学习技术？

2026-05-25 18:430阅读0评论SEO教程

内容介绍
文章标签
相关推荐

本文共计5209个文字，预计阅读时间需要21分钟。

导读：电商场景的搜索排序算法基于用户搜索请求，经过召回、粗排、精排、重排与混排等模块，将最终结果呈现给用户。算法的优化目标在于提升用户转化率。传统的有监督训练方式，每个训练样本需包含相关特征和标签。

导读： 电商场景的搜索排序算法根据用户搜索请求，经过召回、粗排、精排、重排与混排等模块将最终的结果呈现给用户，算法的优化目标是提升用户转化。传统的有监督训练方式，每一步迭代的过程中优化当前排序结果的即时反馈收益。但是，实际上用户和搜索系统之间不断交互，用户状态也在不断变化，每一次交互后排序结果和用户反馈也会对后续排序产生影响。因此，我们通过强化学习来建模用户和搜索系统之间的交互过程，优化长期累积收益。目前这个工作已经在京东全量上线。

今天的介绍会围绕下面五点展开：

搜索排序场景及算法概述
强化学习在搜索排序中的建模过程
基于RNN用户状态转移建模
基于DDPG的长期价值建模
规划与展望

01 搜索排序场景及算法概述

首先和大家分享下搜索排序的典型场景以及常用的算法。

搜索排序场景下的主要优化目标是提升用户转化率，常用的算法分别从用户建模角度（DIN、DIEN、Memory Network等）和多目标建模角度（ESMM、MOE、MMOE等）进行设计。这些模型都采用了有监督的训练方式，在每一步迭代的过程中都是优化当前排序结果的即时奖励。而实际上用户和搜索系统之间存在交互，用户状态是不断改变的，这也使得每一步排序结果和反馈跟后续排序有相关性。

阅读全文