文章作者：杨镒铭滴滴出行高级算法工程师内容来源：记录广告、推荐等方面的模型积累@知乎专栏在深度学习大潮之后，搜索推荐等领域模型该如何升级迭代呢？强化学习在游戏等领域大放异彩，那是否可将强化学习应用到搜索推荐领域呢？推荐搜索问题往往也可看作是序列决策的问题，引入强化学习的思想来实现长期回报最大 ....

star2017
1年前
9732
0

美团搜索中查询改写技术的探索与实践

杨俭宗宇谢睿等美团技术团队稿 1. 引言在搜索场景中，由于用户搜索词Query和检索文本Document之间存在大量表述不一的情况，在文本检索框架下，此类文本不匹配导致的漏召回问题严重影响着用户的体验。对这类问题业界一般有两种方案：用户端拓展用户的查询词——即查询改写，或Document端 ....

star2017
1年前
2451
0

赵鑫：强化学习在京东广告序列推荐中的应用

[图片] 分享嘉宾：赵鑫博士京东算法工程师编辑整理：娄学政小米出品平台：DataFunTalk 导读：互联网推荐广告的排序，关键在于对流量价值的预估，其中最重要的一部分是对点击率的预估。为了提高广告的变现效率，核心的问题是如何提高广告的预估精度。同一个广告，在上下文不一样的情况下，点击率 ....

star2017
1年前
6604
0

沈冰阳：强化学习在推荐冷启动优化中的实践探索！

[图片] 分享嘉宾：沈冰阳 58集团算法高级工程师编辑整理：吴祺尧加州大学圣地亚哥分校出品平台：DataFunTalk 导读： 58招聘是国内最大的蓝领招聘平台，是58集团的四大核心业务之一，每天有着上千万的职位在平台上发布，同时也有百万量级的求职者在平台上进行简历投递，达成海量连接并促进大 ....

star2017
1年前
6054
0

机器学习太难了！AI大佬们给你指条明路

与机器学习博士相关的工作职位不仅创下了薪水的新高，而且对世界产生了巨大的影响。80000 小时（YC S15）提供了一个综合指南，用于指导如何开始你的机器学习博士学位之旅。

star2017
1年前
8345
0

通过 Q-learning 举例深入理解强化学习

本文将带你学习经典强化学习算法Q-learning的相关知识。在这篇文章中，你将学到：（1）Q-learning的概念解释和算法详解；（2）通过Numpy实现Q-learning。1故事案例：骑士和公...

star2017
1年前
556
0

马尔科夫决策过程之Bellman Equation（贝尔曼方程）

前面总结了马尔科夫决策过程之MarkovProcesses（马尔科夫过程），见下文：马尔科夫决策过程之MarkovProcesses（马尔科夫过程）马尔科夫决策过程之MarkovRewardProce...

star2017
1年前
930
0

深度强化学习：基于像素的Pong游戏

这是一个迟来的强化学习（ReinforcementLearning，RL）的博客帖子。RL很热！您可能已经注意到，计算机现在可以自动（从游戏原始像素中）学习玩ATARI游戏，他们还在围棋比赛中击败了世...

star2017
1年前
4809
0

强化学习的方法及学习路线

一、介绍目前，对于全球科学家而言，“如何去学习一种新技能”成为了一个最基本的研究问题。为什么要解决这个问题的初衷是显而易见的，如果我们理解了这个问题，那么我们可以使人类做一些我们以前可能没有想到的事。...

star2017
1年前
608
0

基于 “ 滴滴 KDD 2018 论文：基于强化学习技术的智能派单模型 ” 再演绎

[图片] 文章作者：洪九滴滴高级算法工程师内容来源：作者授权出品社区：DataFun 注：欢迎转载，转载请注明出处最近拜读了滴滴 2018 年在 KDD 发表的一篇论文《 Large-Scale Order Dispatch in On-Demand Ride-Hailing Platfo ....

star2017
1年前
11150
0

以 YouTube 论文学习如何在推荐场景应用强化学习

作者：吴海波蘑菇街整理：Hoh Xil 来源：误入机器学习的码农@知乎专栏导读：近期，业界开始流传 YouTube 成功将 RL 应用在了推荐场景，并且是 YouTube 近几年来取得的最显著的线上收益。放出了两篇论文： [1] Top-K Off-Policy Correction fo ....

star2017
1年前
10574
0

「回顾」强化学习：原理与应用

分享嘉宾：王凡百度资深研发工程师编辑整理：王成林内容来源：百度大脑&DataFun AI Talk《强化学习：原理与应用》今天分享话题主要是跟强化学习有关，因为强化学习最近在工业界是非常火热。从加入百度开始，我主要就是做这一块。强化学习是一个比较大的话题，分享的内容大概是三个部分： ....

star2017
1年前
10553
0

KDD2018 | 电商搜索场景中的强化排序学习：形式化、理论分析以及应用

在淘宝的商品搜索场景中，给商品进行打分排序是一个典型的多步决策问题。尽管 Learning to Rank（LTR）被广泛用于排序问题，但现有的方法并没有考虑同一个搜索会话中不同决策步骤之间的关联性，因而无法直接用于电商搜索场景中的商品排序。本文提出用强化学习来解决对商品多步排序决策问题，它在模拟实 ....

star2017
1年前
9780
0

深度强化学习在滴滴路径规划中的探索实践

[图片] 桔妹导读：滴滴的路线引擎每天要处理超过 400 亿次的路线规划请求，路径规划是滴滴地图输出的核心服务之一。不同于传统的路径规划算法，本文主要介绍的是一次深度强化学习在路径规划业务场景下的探索，目标是为用户规划出最符合司乘双方习惯的路线，降低偏航率。当我们打开滴滴使用网约车服务时，出发前 ....

star2017
1年前
605
0

强化学习在新闻推荐中的应用

作者 | mokong 搜狐技术产品导读随着 AlphaGO 在围棋界接连战胜世界冠军，其背后的技术-强化学习逐渐获得学术界、工业界的青睐。在新闻推荐任务中，传统的推荐算法无法考虑单个请求内新闻之间的关联，也无法考虑多个请求之间的关系，而强化学习，通过学习推荐策略给解决上述问题带来了可能。 1. ....

star2017
1年前
9068
0

「回顾」强化学习在自然语言处理中的应用

[图片] 分享嘉宾：黄民烈** **清华大学计算机系副教授，博士生导师编辑整理：邓力内容来源：《Reinforcement Learning in Natural Language Processing》出品社区：DataFun 注：欢迎转载，转载请注明出处。本文首先介绍了强化学习的概念和相 ....

star2017
1年前
5027
0

要提升微信看一看推荐混排的长期收益？试试深度强化学习

第一篇：微信「看一看」推荐排序技术揭秘第二篇：详文解读微信「看一看」多模型内容策略与召回微信 '看一看' 内容理解与推荐导语相比于传统的监督学习方法，强化学习能够最大化长期收益，正是推荐系统更加需要的。做好当下做好固然重要，但放眼未来才能看得更远。本文主要是在看一看算法推荐算法过程中的实 ....

star2017
1年前
665
0

基于强化学习的 Contextual Bandits 算法在推荐场景中的应用

[图片] 文章作者：杨梦月、张露露导读：本文是对滴滴 AI Labs 和中科院大学联合提出的 WWW 2020 Research Track 的 Oral 长文 'Hierarchical Adaptive Contextual Bandits for Resource Constraint b ....

star2017
1年前
5168
0

强化学习系列二——应用 AlphaGo Zero 思路优化搜索排序