In many situations it is either impossible or impractical to develop and evaluate agents entirely on the target domain on which they will be deployed. This is particularly true in robotics, where doing experiments on hardware is much more arduous than in simulation. This has become arguably more so in the case of learning-based agents. To this end, considerable recent effort has been devoted to developing increasingly realistic and higher fidelity simulators. However, we lack any principled way to evaluate how good a ``proxy domain'' is, specifically in terms of how useful it is in helping us achieve our end objective of building an agent that performs well in the target domain. In this work, we investigate methods to address this need. We begin by clearly separating two uses of proxy domains that are often conflated: 1) their ability to be a faithful predictor of agent performance and 2) their ability to be a useful tool for learning. In this paper, we attempt to clarify the role of proxy domains and establish new proxy usefulness (PU) metrics to compare the usefulness of different proxy domains. We propose the relative predictive PU to assess the predictive ability of a proxy domain and the learning PU to quantify the usefulness of a proxy as a tool to generate learning data. Furthermore, we argue that the value of a proxy is conditioned on the task that it is being used to help solve. We demonstrate how these new metrics can be used to optimize parameters of the proxy domain for which obtaining ground truth via system identification is not trivial.


翻译:在很多情况下,完全开发并评价他们将要部署的目标域的代理人是不可能或不切实际的。在机器人方面尤其如此,在机器人方面,对硬件的试验比模拟要困难得多。在学习的代理人方面,这可以说更加困难。为此目的,最近相当努力致力于开发越来越现实和更加忠实的模拟器。然而,我们缺乏任何原则性的方法来评估“代理域”的好坏,具体地说,它如何帮助我们实现最终目标,即建立一个在目标域运行良好的代理人。在这项工作中,我们调查解决这一需要的方法。我们首先明确区分代用域的两种用途,这些用途往往被混为一谈:(1)它们能够忠实地预测代理人业绩,(2)它们能够成为有用的学习工具。在这份文件中,我们试图澄清代用域的作用,制定新的代用(PU)衡量标准,以比较不同代用域的效用。我们提议相对的预测性参数来评估一个代用域域的预测能力,而不是用什么方法来满足这一需要。我们首先将代用域的代用域的两种用途区分为工具用来量化这个代用工具。我们用来用来用来用来证明它的价值。我们如何通过代用一个用来证明数据的域,这是用来用来证明一个用来证明一个用来证明一个用来证明它的工具。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
已删除
将门创投
8+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
3+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
4+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
7+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
12+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关资讯
已删除
将门创投
8+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员