Fairness is an important aspect of decision-making in multi-objective reinforcement learning (MORL), where policies must ensure both optimality and equity across multiple, potentially conflicting objectives. While single-policy MORL methods can learn fair policies for fixed user preferences using welfare functions such as the generalized Gini welfare function (GGF), they fail to provide the diverse set of policies necessary for dynamic or unknown user preferences. To address this limitation, we formalize the fair optimization problem in multi-policy MORL, where the goal is to learn a set of Pareto-optimal policies that ensure fairness across all possible user preferences. Our key technical contributions are threefold: (1) We show that for concave, piecewise-linear welfare functions (e.g., GGF), fair policies remain in the convex coverage set (CCS), which is an approximated Pareto front for linear scalarization. (2) We demonstrate that non-stationary policies, augmented with accrued reward histories, and stochastic policies improve fairness by dynamically adapting to historical inequities. (3) We propose three novel algorithms, which include integrating GGF with multi-policy multi-objective Q-Learning (MOQL), state-augmented multi-policy MOQL for learning non-statoinary policies, and its novel extension for learning stochastic policies. We evaluate our algorithms across various domains and compare our methods against the state-of-the-art MORL baselines. The empirical results show that our methods learn a set of fair policies that accommodate different user preferences.


翻译:公平性是多目标强化学习(MORL)中决策的一个重要方面,策略必须在多个潜在冲突的目标之间同时确保最优性和公平性。虽然单策略MORL方法可以利用广义基尼福利函数(GGF)等福利函数,为固定的用户偏好学习公平策略,但它们无法提供适用于动态或未知用户偏好的多样化策略集。为解决这一局限性,我们形式化了多策略MORL中的公平优化问题,其目标是学习一组帕累托最优策略,确保在所有可能的用户偏好下实现公平性。我们的关键技术贡献包括三个方面:(1)我们证明,对于凹的、分段线性的福利函数(如GGF),公平策略仍然存在于凸覆盖集(CCS)中,该集合是线性标量化下的近似帕累托前沿。(2)我们证明,通过累积奖励历史增强的非平稳策略以及随机策略,能够通过动态适应历史不平等性来提升公平性。(3)我们提出了三种新颖算法,包括将GGF与多策略多目标Q学习(MOQL)集成,用于学习非平稳策略的状态增强多策略MOQL,以及用于学习随机策略的新型扩展。我们在多个领域评估了这些算法,并将我们的方法与最先进的MORL基线进行了比较。实验结果表明,我们的方法学习了一组能够适应不同用户偏好的公平策略。

0
下载
关闭预览

相关内容

论学习、公平性与复杂度
专知会员服务
11+阅读 · 2月28日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
【IJCAI2025教程】基于梯度的多目标深度学习,221页ppt
专知会员服务
24+阅读 · 2025年8月31日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【IJCAI2024教程】公平强化学习,115页ppt
专知会员服务
30+阅读 · 2024年8月6日
《多目标强化学习和规划的实用指南》59页最新论文
专知会员服务
56+阅读 · 2022年8月10日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员