We study a repeated information design setting in which the receiver, who is also the decision-maker, updates beliefs in a systematically biased way. More specifically, a distorted posterior in our model can be written as a convex combination of the prior and the Bayesian posterior, governed by a fixed but unknown parameter. Over repeated interactions, the sender chooses persuasive signaling schemes, observes only the receiver's realized actions, and seeks to minimize regret relative to a full-information oracle that knows the receiver's biased updating rule. We propose a safe exploration algorithm for learning the receiver's bias while maintaining high persuasion value. The algorithm exploits the asymmetric cost of probing: conservative probes incur only local loss, whereas overly aggressive probes may lose the persuasive opportunity entirely. For general finite state and action spaces and arbitrary bounded utilities, our method achieves $O(\log\log T)$ regret. A matching $Ω(\log\log T)$ lower bound shows that this rate is optimal. We further discuss the influence on receiver welfare, as well as extensions to jointly unknown prior and bias, and contextual settings with time-varying priors and utilities.


翻译:我们研究了一种重复信息设计场景,其中接收者(同时也是决策者)以系统性偏差的方式更新信念。具体而言,我们模型中的扭曲后验可表示为先验与贝叶斯后验的凸组合,其受控于一个固定但未知的参数。在重复交互过程中,发送者选择具有说服力的信号方案,仅能观测到接收者的实际行动,并旨在最小化相对于知晓接收者偏差更新规则的全信息预言机的遗憾值。我们提出了一种安全探索算法,用于在学习接收者偏好的同时保持高说服价值。该算法利用探测的非对称成本:保守探测仅造成局部损失,而过度激进的探测则可能完全丧失说服机会。对于一般有限状态与动作空间及任意有界效用函数,本方法可实现 $O(\log\log T)$ 的遗憾值。匹配的下界 $\Omega(\log\log T)$ 表明该速率是最优的。我们进一步讨论了该方法对接收者福利的影响,以及扩展到先验与偏差均未知的情景,和具有时变先验与效用的上下文设置。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
用Attention玩转CV,一文总览自注意力语义分割进展
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月2日
Arxiv
0+阅读 · 5月18日
Arxiv
0+阅读 · 5月17日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文搞懂反向传播
机器学习与推荐算法
18+阅读 · 2020年3月12日
用Attention玩转CV,一文总览自注意力语义分割进展
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员