We study principal-agent problems in which a principal commits to an outcome-dependent payment scheme (i.e., a contract) in order to induce an agent to take a costly action leading to a favorable outcome. We consider the online extension of the classical (one-shot) principal-agent problem, in which the principal repeatedly interacts with agents by proposing contracts over multiple rounds. The principal has no information about the agents and, crucially, does not observe their actions. As a result, the principal must learn an optimal contract using only the realized outcomes observed at each round. We focus on the setting with binary actions and single-dimensional agent types, where the agent's private type represents their cost per unit-of-effort. For adversarial-type sequences, we provide tight $Θ(T^{2/3})$ regret guarantees. Remarkably, this rate is completely independent of the number of outcomes $m$. The upper bound is based on two key components: 1) a reduction to a one-dimensional threshold optimization problem and 2) a non-uniform discretization to handle the non-Lipschitz nature of the problem. Moreover, in the case of a single (fixed) hidden type, we show that it is possible to improve the rates and provide a tight $\widetildeΘ(\sqrt{T})$ regret bound. Our algorithm is based on an explore-then-commit strategy where we first approximately learn the hidden type via a stochastic binary search, and then we commit to a ``robustified'' near-optimal contract.


翻译:我们研究委托-代理问题,其中委托人承诺一个依赖于结果的支付方案(即合约),以激励代理人采取成本高昂的行动来获得有利结果。我们考虑经典(单次)委托-代理问题的在线扩展,即委托人在多轮次中通过提出合约与代理人进行重复交互。委托人对代理人的信息一无所知,且关键的是,无法观察到他们的行动。因此,委托人必须仅通过每轮观测到的实现结果来学习最优合约。我们聚焦于二值行动和单维代理人类型的情景,其中代理人的私有类型代表其每单位努力的成本。对于对抗性类型序列,我们给出了紧的 Θ(T^{2/3}) 遗憾保证。值得注意的是,该速率完全独立于结果数量 m。上界基于两个关键组成部分:1)归约到一维阈值优化问题;2)采用非均匀离散化以处理问题的非利普希茨性质。此外,对于单一(固定)隐藏类型的情况,我们证明可以改进速率,并给出紧的 \widetildeΘ(\sqrt{T}) 遗憾界。我们的算法基于一种“探索后承诺”策略:首先通过随机二分搜索近似学习隐藏类型,然后承诺采用“鲁棒化”的近似最优合约。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
专知会员服务
34+阅读 · 2021年5月8日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
一文读懂「Attention is All You Need」| 附代码实现
PaperWeekly
37+阅读 · 2018年1月10日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
18+阅读 · 2017年11月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
VIP会员
最新内容
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 10分钟前
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员