【普林斯顿博士论文】智能体和机制的学习算法，201页pdf - 专知VIP

会员服务 ·

26

普林斯顿大学 (Princeton University) · 博士论文 · 强化学习 ·

2023 年 4 月 18 日

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

具有从过去的经验中学习并根据环境或背景调整行为以实现特定目标的能力，是真正智能实体的特征。为了实现这一目标，开发高效、稳健和可靠的学习算法是研究的活跃领域，也是实现人工通用智能的重要步骤。在本论文中，我们研究了在两种不同背景下进行最优决策的学习算法，第一部分是强化学习，第二部分是拍卖设计。

强化学习（RL）是机器学习的一个领域，关注的是智能体应该如何在环境中行动以最大化其随时间累积的奖励。在第二章中，受统计物理学的启发，我们开发了一种新颖的强化学习方法，这种方法不仅学习具有增强期望属性的最优策略，而且为最大熵强化学习带来了新的见解。在第三章中，我们使用贝叶斯观点来解决强化学习中的泛化问题。我们展示了环境动态的不完美知识实际上将一个完全观察到的马尔可夫决策过程（MDP）转变为一个部分观察到的马尔可夫决策过程（POMDP），我们称之为认知POMDP。根据这个观察，我们开发了一种新的策略学习算法LEEP，它具有改进的泛化属性。

拍卖是组织购买和销售产品与服务的过程，具有很大的实际意义。设计一个激励兼容、个体理性的拍卖以最大化收入是一个具有挑战性且难以解决的问题。最近，有人提出了一种基于深度学习的方法，从数据中学习最优拍卖。尽管取得了成功，但这种方法存在一些局限性，包括样本效率低、难以泛化到新的拍卖以及训练困难。在第四章中，我们构建了一种保持对称性的神经网络结构，称为EquivariantNet，适用于匿名拍卖。EquivariantNet不仅样本效率更高，而且能够学习到在其他设置中泛化性能良好的拍卖规则。在第五章中，我们将拍卖学习问题提出为一个双人博弈的新颖表述。由此产生的学习算法ALGNet更容易训练，更可靠，更适合非平稳设置。

成为VIP会员查看完整内容

53

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

43+阅读 · 2023年2月25日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

74+阅读 · 2023年2月23日

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

专知会员服务

78+阅读 · 2023年2月13日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

55+阅读 · 2023年2月3日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

90+阅读 · 2022年12月12日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

39+阅读 · 2021年9月7日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知

3+阅读 · 2022年11月22日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

大规模在线游戏网络用户行为研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于物理学原理的群体智能行为涌现机制与群体智能算法研究

国家自然科学基金

4+阅读 · 2013年12月31日

心智游移的问题解决功能探索——从行为到脑机制

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

一种新的多点随机搜索算法—#8212;类电磁机制算法的扩展与应用

国家自然科学基金

0+阅读 · 2009年12月31日

偏好学习的若干关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

动态、分布式网络入侵模式分析

国家自然科学基金

0+阅读 · 2009年12月31日

Improving Adversarial Robustness of DEQs with Explicit Regulations Along the Neural Dynamics

Arxiv

0+阅读 · 2023年6月2日

Type Theory with Explicit Universe Polymorphism

Arxiv

0+阅读 · 2023年6月2日

Reducing Popularity Bias in Recommender Systems through AUC-Optimal Negative Sampling

Arxiv

0+阅读 · 2023年6月2日

The Benefits of Interaction Constraints in Distributed Autonomous Systems

Arxiv

0+阅读 · 2023年6月1日

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach

Arxiv

0+阅读 · 2023年6月1日

Interpretable and Efficient Heterogeneous Graph Convolutional Network

Arxiv

15+阅读 · 2021年9月8日

Neural Collaborative Reasoning

Arxiv

13+阅读 · 2021年5月3日

A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation

Arxiv

25+阅读 · 2021年4月27日

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommendation

Arxiv

11+阅读 · 2019年6月13日

Graph Neural Networks for Social Recommendation

Arxiv

10+阅读 · 2019年2月19日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

43+阅读 · 2023年2月25日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

74+阅读 · 2023年2月23日

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

【剑桥大学博士论文】主动学习与序列决策研究进展，160页pdf

专知会员服务

78+阅读 · 2023年2月13日

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

【剑桥大学博士论文】监督学习、模仿和强化学习中泛化和自适应的因果表示学习，202页pdf

专知会员服务

55+阅读 · 2023年2月3日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

90+阅读 · 2022年12月12日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

39+阅读 · 2021年9月7日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知

3+阅读 · 2022年11月22日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

【牛津大学博士论文】神经网络中的无监督学习和连续学习，153页pdf

专知

6+阅读 · 2022年10月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

相关基金

大规模在线游戏网络用户行为研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于物理学原理的群体智能行为涌现机制与群体智能算法研究

国家自然科学基金

4+阅读 · 2013年12月31日

心智游移的问题解决功能探索——从行为到脑机制

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

Markov决策过程值函数逼近的基函数自动构造

国家自然科学基金

1+阅读 · 2012年12月31日

Spiking神经网络学习算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

一种新的多点随机搜索算法—#8212;类电磁机制算法的扩展与应用

国家自然科学基金

0+阅读 · 2009年12月31日

偏好学习的若干关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

动态、分布式网络入侵模式分析

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Improving Adversarial Robustness of DEQs with Explicit Regulations Along the Neural Dynamics

Arxiv

0+阅读 · 2023年6月2日

Type Theory with Explicit Universe Polymorphism

Arxiv

0+阅读 · 2023年6月2日

Reducing Popularity Bias in Recommender Systems through AUC-Optimal Negative Sampling

Arxiv

0+阅读 · 2023年6月2日

The Benefits of Interaction Constraints in Distributed Autonomous Systems

Arxiv

0+阅读 · 2023年6月1日

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach

Arxiv

0+阅读 · 2023年6月1日

Interpretable and Efficient Heterogeneous Graph Convolutional Network

Arxiv

15+阅读 · 2021年9月8日

Neural Collaborative Reasoning

Arxiv

13+阅读 · 2021年5月3日

A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation

Arxiv

25+阅读 · 2021年4月27日

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommendation

Arxiv

11+阅读 · 2019年6月13日

Graph Neural Networks for Social Recommendation

Arxiv

10+阅读 · 2019年2月19日

微信扫码咨询专知VIP会员