具有从过去的经验中学习并根据环境或背景调整行为以实现特定目标的能力,是真正智能实体的特征。为了实现这一目标,开发高效、稳健和可靠的学习算法是研究的活跃领域,也是实现人工通用智能的重要步骤。在本论文中,我们研究了在两种不同背景下进行最优决策的学习算法,第一部分是强化学习,第二部分是拍卖设计。

强化学习(RL)是机器学习的一个领域,关注的是智能体应该如何在环境中行动以最大化其随时间累积的奖励。在第二章中,受统计物理学的启发,我们开发了一种新颖的强化学习方法,这种方法不仅学习具有增强期望属性的最优策略,而且为最大熵强化学习带来了新的见解。在第三章中,我们使用贝叶斯观点来解决强化学习中的泛化问题。我们展示了环境动态的不完美知识实际上将一个完全观察到的马尔可夫决策过程(MDP)转变为一个部分观察到的马尔可夫决策过程(POMDP),我们称之为认知POMDP。根据这个观察,我们开发了一种新的策略学习算法LEEP,它具有改进的泛化属性。

拍卖是组织购买和销售产品与服务的过程,具有很大的实际意义。设计一个激励兼容、个体理性的拍卖以最大化收入是一个具有挑战性且难以解决的问题。最近,有人提出了一种基于深度学习的方法,从数据中学习最优拍卖。尽管取得了成功,但这种方法存在一些局限性,包括样本效率低、难以泛化到新的拍卖以及训练困难。在第四章中,我们构建了一种保持对称性的神经网络结构,称为EquivariantNet,适用于匿名拍卖。EquivariantNet不仅样本效率更高,而且能够学习到在其他设置中泛化性能良好的拍卖规则。在第五章中,我们将拍卖学习问题提出为一个双人博弈的新颖表述。由此产生的学习算法ALGNet更容易训练,更可靠,更适合非平稳设置。

成为VIP会员查看完整内容
52

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
【爱丁堡大学博士论文】图聚类结构的学习,164页pdf
专知会员服务
21+阅读 · 2023年1月5日
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
89+阅读 · 2022年12月12日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月2日
Arxiv
13+阅读 · 2021年5月3日
Arxiv
10+阅读 · 2019年2月19日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员