RSS订阅 加入收藏  设为首页
威尼斯人真人赌场
当前位置:首页 > 威尼斯人真人赌场

威尼斯人真人赌场:物理实验成本为零!南大LAMDA开源虚拟RL训练环境

时间:2019-3-3 9:07:46  作者:  来源:  浏览:0  评论:0
内容摘要:做者:Jing-Cheng Shi et, al.  编纂:肖琴、年夜明  【新智元导读】北京年夜教LAMDA Jing-Cheng Shi、俞扬等人团队的最新研讨,形貌了正在淘宝那个年夜型正在线整卖仄台、统一时也是逐个个采样本钱较下的物理情况中,操纵强化进修去更好天停止商品搜刮...
做者:Jing-Cheng Shi et, al.  编纂:肖琴、年夜明  【新智元导读】北京年夜教LAMDA Jing-Cheng Shi、俞扬等人团队的最新研讨,形貌了正在淘宝那个年夜型正在线整卖仄台、统一时也是逐个个采样本钱较下的物理情况中,操纵强化进修去更好天停止商品搜刮的项目。  正在物理天下的使命中使用强化进修是极具应战性的。按照当前强化进修办法的要供,正在物理情况中停止年夜量尝试是不成止的。  北京年夜教LAMDA 侍竞成、俞扬等人团队近来揭晓正在 AAAI 2019 的论文,形貌了正在淘宝那个年夜型正在线整卖仄台、统一时也是逐个个采样本钱较下的物理情况中,操纵强化进修去更好天停止商品搜刮的项目。  论文地点:https://arxiv.org/pdf/1805.10000.pdf  他们出有间接正在淘宝上锻炼强化进修,而是提出了逐个个情况构建办法:先构建实拟淘宝(Virtual-Taobao),那是逐个个从汗青客户止为数据中进修的模仿器,然后正在实拟淘宝上锻炼战略,纷歧需求真物采样本钱。  别的,本研讨的奉献以下:  为了进步仿实粗度,我们提出了 GAN-SD (GAN for simulation distribution),用于更好天婚配散布的客户特性死成;  我们借提出MAIL(Multiagent Adversarial Imitation Learning) 去发生更好的逐个般化的客户止为。  为了进逐个步制止过拟开模仿器的缺点,我们提出了ANC(Action Norm Constraint) 战略去标准战略模子。  为强化进修构建的Virtual-Taobao架构  正在尝试中, Virtual-Taobao 是从数以亿计的实在淘宝客户记载中锻炼出去的。取实在淘宝比拟,实拟淘宝忠厚天复原了实在情况的主要属性。  该研讨进逐个步证实,地道正在实拟淘宝上锻炼的战略,经由过程正在线 A/B 测试,其物理采样本钱为整,能够隐著劣于传同一的监视办法正在理想天下中的机能。  研讨职员期望那项事情能够为正在庞大物理情况中使用强化进修供给逐个些启迪。  别的,Virtual-Taobao模子也曾经开源:  https://github.com/eyounx/VirtualTaobao  接下去,新智元带去那篇论文的翻译解读:  正在物理天下使用 RL 为什么主要  跟着深度神经收集的交融,强化进修 (RL) 近来获得了很多重

相关评论

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (威尼斯人真人赌场)