Incentive design constitutes a foundational paradigm for influencing the behavior of strategic agents, wherein a system planner (principal) publicly commits to an incentive mechanism designed to align individual objectives with collective social welfare. This paper introduces the Regret-Minimizing Adaptive Incentive Design (RAID) problem, which aims to synthesize incentive laws under information asymmetry and achieve asymptotically minimal regret compared to an oracle with full information. To this end, we develop the RAID algorithm, which employs a switching policy alternating between probing (exploration) and estimate-based incentivization (exploitation). The associated type estimator relies only on a weaker excitation condition required for strong consistency in least squares estimation, substantially relaxing the persistence-of-excitation assumptions previously used in adaptive incentive design. In addition, we establish the strong consistency of the proposed type estimator and prove that the incentive obtained asymptotically minimizes the planner's average regret almost surely. Numerical experiments illustrate the convergence rate of the proposed methodology.


翻译:激励设计构成了影响策略性智能体行为的基础范式,其中系统规划者(委托人)公开承诺一种激励机制,旨在协调个体目标与集体社会福利。本文提出了遗憾最小化自适应激励设计(RAID)问题,旨在信息不对称条件下综合激励法则,并与具备完全信息的理想基准相比实现渐近最小遗憾。为此,我们开发了RAID算法,该算法采用交替策略,在探测(探索)与基于估计的激励(利用)之间切换。相关的类型估计器仅依赖于弱激励条件,该条件足以保证最小二乘估计的强一致性,从而大幅放宽了先前自适应激励设计中使用的持续激励假设。此外,我们建立了所提类型估计器的强一致性,并证明所获激励几乎必然地渐近最小化规划者的平均遗憾。数值实验展示了所提方法的收敛速度。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
33+阅读 · 2025年5月31日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
31+阅读 · 2025年5月3日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【伯克利博士论文】以人为中心的奖励设计
专知会员服务
28+阅读 · 2024年9月23日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
最好的激励,是激发员工的自驱力
华章管理
10+阅读 · 2019年4月14日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
0+阅读 · 4月10日
Arxiv
0+阅读 · 3月26日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
33+阅读 · 2025年5月31日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
31+阅读 · 2025年5月3日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【伯克利博士论文】以人为中心的奖励设计
专知会员服务
28+阅读 · 2024年9月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员