Online platforms increasingly rely on sequential decision-making algorithms to allocate resources, match users, or control exposure, while facing growing pressure to ensure fairness over time. We study a general online decision-making framework in which a platform repeatedly makes decisions from possibly non-convex and discrete feasible sets, such as indivisible assignments or assortment choices, to maximize accumulated reward. Importantly, these decisions must jointly satisfy a set of general, $m$-dimensional, potentially unbounded but convex global constraints, which model diverse long-term fairness goals beyond simple budget caps. We develop a primal-dual algorithm that interprets fairness constraints as dynamic prices and updates them online based on observed outcomes. The algorithm is simple to implement, requiring only the solution of perturbed local optimization problems at each decision step. Under the standard random permutation model, we show that our method achieves $\tilde{O}(\sqrt{mT})$ regret in expected reward while guaranteeing $O(\sqrt{mT})$ violation of long-term fairness constraints deterministically over a horizon of $T$ steps. To capture realistic demand patterns such as periodicity or perturbation, we further extend our guarantees to a grouped random permutation model.


翻译:在线平台日益依赖序贯决策算法来分配资源、匹配用户或控制曝光度,同时面临确保长期公平性的日益增长的压力。我们研究一个通用的在线决策框架,其中平台需从可能非凸且离散的可行集(如不可分割的任务分配或品类选择)中重复做出决策,以最大化累积奖励。关键在于,这些决策必须共同满足一组通用的、m维的、可能无界但为凸的全局约束,这些约束建模了超越简单预算上限的多样化长期公平目标。我们提出了一种原始-对偶算法,将公平约束解释为动态价格,并根据观测结果在线更新。该算法实现简单,仅需在每个决策步骤求解扰动后的局部优化问题。在标准随机置换模型下,我们证明该方法在T步时间范围内,能以$\tilde{O}(\sqrt{mT})$的期望奖励遗憾度实现目标,同时确定性地保证长期公平约束的违反量不超过$O(\sqrt{mT})$。为捕捉周期性或扰动等实际需求模式,我们进一步将理论保证扩展到分组随机置换模型。

0
下载
关闭预览

相关内容

《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
应对时间序列问题有何妙招(Kaggle比赛亚军)
七月在线实验室
32+阅读 · 2018年3月19日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
相关VIP内容
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员