A No-Regret Framework for Adaptive Incentive Design - 专知论文

会员服务 ·

0

设计 · 估计/估计量 · Agent · RAID · Continuity ·

A No-Regret Framework for Adaptive Incentive Design

翻译：自适应激励设计的无遗憾框架

Georgios Vasileiou,Lantian Zhang,Silun Zhang

from arxiv, 21 pages, 5 figures

Incentive design studies how a central authority can influence strategic agents through payments, subsidies, or taxes, so that individual objectives align with collective welfare. This paper introduces a No-Regret Adaptive Incentive Design (RAID) framework for nonlinear games with continuous action spaces and private agent costs. In this framework, the authority (planner) designs incentives that regulate the Nash equilibrium toward a socially optimal action profile, while simultaneously learning agents' unknown preferences from repeated strategic responses. We formulate the RAID problem and construct a least-squares estimator whose strong consistency requires only diminishing excitation. Leveraging this weak excitation requirement, we propose a switching incentive policy that alternates between probing (exploration) and estimate-based (exploitation) incentives. The resulting policy achieves an $O(t^{-0.5})$ parameter estimation rate and accumulates $O(t^{0.5}\log t)$ squared social-cost regret, almost surely. We further extend the framework to an endogenous-noise response model, where standard least-squares estimation is biased due to an error-in-variables correlation between the noise and agent responses. We utilize a repeated-sampling estimator and corresponding switching policy that retain the same almost-sure convergence and regret rates. Numerical experiments validate the effectiveness and predicted convergence rates of the method.

翻译：激励设计研究中央权威如何通过支付、补贴或税收影响策略性主体，使个体目标与集体福利保持一致。本文针对具有连续动作空间和私有主体成本的非线性博弈，提出一种无遗憾自适应激励设计（RAID）框架。在该框架中，权威（规划者）设计激励措施，将纳什均衡调控至社会最优动作轮廓，同时通过重复的策略响应学习主体未知的偏好。我们形式化RAID问题并构建最小二乘估计器，其强一致性仅需衰减激励。利用这一弱激励需求，我们提出一种切换激励策略，交替使用探测（探索）激励和基于估计（利用）激励。该策略实现了$O(t^{-0.5})$的参数估计速率，并以几乎必然的方式累积$O(t^{0.5}\log t)$的平方社会福利遗憾。我们进一步将框架扩展至内生噪声响应模型，其中标准最小二乘估计因噪声与主体响应之间的变量误差相关性而产生偏差。我们采用重复采样估计器及相应的切换策略，保持相同的几乎必然收敛性与遗憾速率。数值实验验证了该方法的有效性及预测收敛速率。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

《构建无人自主载具协同自主性框架——以层级交互为重点》最新145页

《构建无人自主载具协同自主性框架——以层级交互为重点》最新145页

专知会员服务

25+阅读 · 3月23日

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

专知会员服务

51+阅读 · 2025年9月8日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【伯克利博士论文】以人为中心的奖励设计

【伯克利博士论文】以人为中心的奖励设计

专知会员服务

28+阅读 · 2024年9月23日

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

专知会员服务

20+阅读 · 2024年9月4日

基于人工智能的自适应实验设计, 加州理工Yisong Yue教授，附下载

专知会员服务

20+阅读 · 2021年1月27日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于冗余结构的自适应容错并联机器人设计理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

非独立泊松白噪声激励下随机非线性系统的响应研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于偶应力/应变梯度的无铰链式微型柔顺机构构型设计理论

国家自然科学基金

0+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于三级供应链的质量与需求不对称下制造商激励契约设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

空间调制协作中继网络中的链路自适应技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

多自由度非线性系统的振动能量传递机理及应用

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

Arxiv

0+阅读 · 6月13日

Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

Arxiv

0+阅读 · 6月7日

Regret Minimization with Adaptive Opponents in Repeated Games

Arxiv

0+阅读 · 6月4日

Mechanism Design Without Disclosure: Committing to and Running Hidden Mechanisms

Arxiv

0+阅读 · 6月3日

Nonbossy Mechanisms: Mechanism Design Robust to Secondary Goals

Arxiv

0+阅读 · 5月31日

Designing for the Moment: How One-Minute Interventions Fit or Falter Across Domains

Arxiv

0+阅读 · 5月27日

Incentivized Exploration with Stochastic Covariates: A Two-Stage Mechanism Design for Recommender System

Arxiv

0+阅读 · 5月25日

About Time: Model-free Reinforcement Learning with Timed Reward Machines

Arxiv

0+阅读 · 5月12日

AHD Agent: Agentic Reinforcement Learning for Automatic Heuristic Design

Arxiv

0+阅读 · 5月9日

Incentive Design in Competitive Resource Allocation: Exploiting Valuation Asymmetry in Tullock Contests

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

估计/估计量

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

6+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《构建无人自主载具协同自主性框架——以层级交互为重点》最新145页

《构建无人自主载具协同自主性框架——以层级交互为重点》最新145页

专知会员服务

25+阅读 · 3月23日

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

专知会员服务

51+阅读 · 2025年9月8日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【伯克利博士论文】以人为中心的奖励设计

【伯克利博士论文】以人为中心的奖励设计

专知会员服务

28+阅读 · 2024年9月23日

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

专知会员服务

20+阅读 · 2024年9月4日

基于人工智能的自适应实验设计, 加州理工Yisong Yue教授，附下载

专知会员服务

20+阅读 · 2021年1月27日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

Self-Attention GAN 中的 self-attention 机制

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

相关论文

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

Arxiv

0+阅读 · 6月13日

Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

Arxiv

0+阅读 · 6月7日

Regret Minimization with Adaptive Opponents in Repeated Games

Arxiv

0+阅读 · 6月4日

Mechanism Design Without Disclosure: Committing to and Running Hidden Mechanisms

Arxiv

0+阅读 · 6月3日

Nonbossy Mechanisms: Mechanism Design Robust to Secondary Goals

Arxiv

0+阅读 · 5月31日

Designing for the Moment: How One-Minute Interventions Fit or Falter Across Domains

Arxiv

0+阅读 · 5月27日

Incentivized Exploration with Stochastic Covariates: A Two-Stage Mechanism Design for Recommender System

Arxiv

0+阅读 · 5月25日

About Time: Model-free Reinforcement Learning with Timed Reward Machines

Arxiv

0+阅读 · 5月12日

AHD Agent: Agentic Reinforcement Learning for Automatic Heuristic Design

Arxiv

0+阅读 · 5月9日

Incentive Design in Competitive Resource Allocation: Exploiting Valuation Asymmetry in Tullock Contests

Arxiv

0+阅读 · 5月7日

相关基金

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

基于冗余结构的自适应容错并联机器人设计理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

非独立泊松白噪声激励下随机非线性系统的响应研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于偶应力/应变梯度的无铰链式微型柔顺机构构型设计理论

国家自然科学基金

0+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于三级供应链的质量与需求不对称下制造商激励契约设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

空间调制协作中继网络中的链路自适应技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

多自由度非线性系统的振动能量传递机理及应用

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员