加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 金华站长网 (https://www.0579zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

南京大学教授俞扬:走出游戏世界的强化学习

发布时间:2020-12-25 04:38:18 所属栏目:业界 来源:网易科技) 更多精彩内容,请关注《预见未来十年!2020网易
导读:副标题#e# 南京大学教授俞扬:走出游戏世界的强化学习(来源:网易科技) 更多精彩内容,请关注《预见未来十年!2020网易未来大会》专题报道 杭州网讯12月18日-20日,2020网易未来大会在杭州盛大举行。大会以“洞觉未见”为主题,汇聚了全球最强大脑,期盼

这种情况下有什么办法呢,我这里会出现一个公式,这个公式不要紧,我们解释一下它背后表示的含义。如果我们今天用深度学习技术来解决这个问题的话,它会产生一个很大的误差。这个误差看起来是什么样子呢,就是屏幕上显示的这样,哪怕有很小的误差,在等式的右边都会被平方级的放大,所以我们没有办法用今天的深度学习技术来构造一个模拟好的虚拟环境。

有没有其他的办法?其实是有的,我们把我们的目标换一下以后,能够得到新的结果,这个结果是我们想去学习虚拟环境这件事情做了几十年以后,今天唯一出现的新结果。所以这个结果告诉我们——和以往不同的是它能把平方级误差变成线性的误差,我们今天用这样的技术解决问题,所以这是我们做的第一个能够用通用框架,能从数据里面还原虚拟的场景。

这样的东西可以在什么地方有用?第一个场景,我们把它用在推荐上。这是和淘宝合作的项目,我们将这样的技术用于做推荐。我们做的决策,就是把商品怎么陈列出来,面临的环境是很多用户在买东西。所以要构建一个虚拟环境,就是很多虚拟用户买东西。我们对着虚拟用户,可以不计成本来做推荐,看什么样的推荐工作更好。这样的工作做完了以后,在虚拟环境下,对着虚拟用户,我们提高了4%的销量。但是对着真实用户呢?我们做了线上实验,可以提高2%的销量。

第二个场景,和滴滴出行合作,对司机要做程序定制。我们的环境就是有司机,所以我们怎么把司机虚拟出来?我们用数据方法虚拟出来,定制了很多不同程序给它,看什么样的规划对司机来说是最好的。我们在数据下的验证,我们在虚拟司机上可以提升13%的完单量,在实际城市验证上提升11%点多的完单量以及8%以上的司机收入。

第三个场景,物流场景。物流场景下,我们通常人工设计物流场景怎么运转,但由于这里面需要有工人捡获,所以工人行为很难被专家规则描述得很清楚。所以我们通过数据,来把工人虚拟出来了。同样的技术,我们用在天猫超市场景下,原有系统发一个订单、我们的系统发了一个订单,我们比了6天,能提升10%以上的效率,也就是说节省了10%以上的时间。

这是闲鱼平台做的demo,闲鱼就是卖二手。如果我们卖二手没有时间砍价,就可以把底价托给机器,这个机器人要做的事情就是有买家来了以后和买家砍价,这里面包括自然语言的处理,当然这不是我们做的,我们只是做砍价决策。砍价决策,要么我不卖,要么就是你降得太低。或者我觉得可以,也可以还一点价,看什么样的成交最好。所以我们在数据验证,能够比人的成交率提升1倍以上。这几个案例,就是我们在真实业务场景下,能够用强化学习显示出来自主做决策的能力。

(编辑:PHP编程网 - 金华站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!