在淘宝的商品搜索场景中,给商品进行打分排序是一个典型的多步决策问题。尽管 Learning to Rank(LTR)被广泛用于排序问题,但现有的方法并没有考虑同一个搜索会话中不同决策步骤之间的关联性,因而无法直接用于电商搜索场景中的商品排序。本文提出用强化学习来解决对商品多步排序决策问题,它在模拟实 ....
转载自 美团点评技术团队 一。 背景 效果广告的主要特点之一是可量化,即广告系统的所有业务指标都是可以计算并通过数字进行展示的。因此,可以通过业务指标来表示广告系统的迭代效果。那如何在全量上线前确认迭代的结果呢?通用的方法是采用 AB 实验(如图 1)。所谓 AB 实验,是指单个变量具有两个版本 A ....
王喆 今天我们关注模型的评估和线上测试。有经验的算法工程师肯定非常清楚,在一个模型的开发周期中,占工作量大头的其实是特征工程和模型评估及上线的过程。在机器学习平台已经非常成熟的现在,模型结构的实现和调整反而仅仅是几行代码的事情。所以如果能够将模型评估和线上 AB Test 的效率提高,那一定是大大解 ....