Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning - 专知论文

会员服务 ·

0

系统 · 多目标 · 多目标强化学习 · 人类价值 · 包含 ·

Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning

翻译：基于偏好多目标强化学习的社会价值系统学习

Andrés Holgado-Sánchez,Peter Vamplew,Richard Dazeley,Sascha Ossowski,Holger Billhardt

from arxiv, 18 pages, 3 figures. To be published in proceedings of the 25th International Conference on Autonomous Agents and Multi-Agent Systems (AAMAS 2026). This is a full version that includes the supplementary material

Value-aware AI should recognise human values and adapt to the value systems (value-based preferences) of different users. This requires operationalization of values, which can be prone to misspecification. The social nature of values demands their representation to adhere to multiple users while value systems are diverse, yet exhibit patterns among groups. In sequential decision making, efforts have been made towards personalization for different goals or values from demonstrations of diverse agents. However, these approaches demand manually designed features or lack value-based interpretability and/or adaptability to diverse user preferences. We propose algorithms for learning models of value alignment and value systems for a society of agents in Markov Decision Processes (MDPs), based on clustering and preference-based multi-objective reinforcement learning (PbMORL). We jointly learn socially-derived value alignment models (groundings) and a set of value systems that concisely represent different groups of users (clusters) in a society. Each cluster consists of a value system representing the value-based preferences of its members and an approximately Pareto-optimal policy that reflects behaviours aligned with this value system. We evaluate our method against a state-of-the-art PbMORL algorithm and baselines on two MDPs with human values.

翻译：价值感知人工智能应能识别人类价值观并适应不同用户的价值系统（基于价值的偏好）。这需要对价值观进行操作化处理，而该过程容易产生设定偏差。价值观的社会属性要求其表征需同时满足多用户需求，而价值系统虽具有多样性，却能在群体间呈现规律性模式。在序列决策领域，已有研究致力于通过分析不同智能体的行为示范来实现针对多元目标或价值观的个性化适配。然而，现有方法或依赖人工设计特征，或缺乏基于价值的可解释性及对多样化用户偏好的适应能力。本文提出基于聚类与偏好多目标强化学习（PbMORL）的算法，用于在马尔可夫决策过程（MDPs）中学习智能体社会的价值对齐模型与价值系统。我们通过联合学习社会衍生的价值对齐模型（基础表征）以及一组能简洁表征社会中不同用户群体（聚类）的价值系统。每个聚类包含代表其成员价值偏好的价值系统，以及反映符合该价值系统行为的近似帕累托最优策略。我们在两个包含人类价值观的MDP环境中，将所提方法与最先进的PbMORL算法及基线模型进行了对比评估。

0

相关内容

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

【博士论文】价值导向强化学习基础探索,99页pdf

【博士论文】价值导向强化学习基础探索,99页pdf

专知会员服务

32+阅读 · 2024年10月13日

智能集群系统的强化学习方法综述

智能集群系统的强化学习方法综述

专知会员服务

85+阅读 · 2024年1月1日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

263+阅读 · 2022年8月23日

什么是终身学习？171页pdf最新《终身监督学习》新书阐述最新方法体系

什么是终身学习？171页pdf最新《终身监督学习》新书阐述最新方法体系

专知会员服务

88+阅读 · 2022年7月12日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

119+阅读 · 2022年3月18日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

41+阅读 · 2020年1月13日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

会议交流 | 盘点知识图谱的10大热点趋势与实践探索——DataFunSummit 2022 知识图谱在线峰会

会议交流 | 盘点知识图谱的10大热点趋势与实践探索——DataFunSummit 2022 知识图谱在线峰会

开放知识图谱

13+阅读 · 2022年3月8日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

微软研究院AI头条

18+阅读 · 2019年8月13日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Multistep Quasimetric Learning for Scalable Goal-conditioned Reinforcement Learning

Arxiv

0+阅读 · 2月22日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Operationalizing Human Values in the Requirements Engineering Process of Ethics-Aware Autonomous Systems

Arxiv

0+阅读 · 2月10日

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

Arxiv

0+阅读 · 2月9日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

A computational framework for human values

Arxiv

0+阅读 · 2月4日

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Arxiv

0+阅读 · 2月4日

Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning

Arxiv

0+阅读 · 2月4日

AI and My Values: User Perceptions of LLMs' Ability to Extract, Embody, and Explain Human Values from Casual Conversations

Arxiv

0+阅读 · 1月30日

Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

多目标强化学习

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

47+阅读 · 2025年3月20日

【博士论文】价值导向强化学习基础探索,99页pdf

【博士论文】价值导向强化学习基础探索,99页pdf

专知会员服务

32+阅读 · 2024年10月13日

智能集群系统的强化学习方法综述

智能集群系统的强化学习方法综述

专知会员服务

85+阅读 · 2024年1月1日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

263+阅读 · 2022年8月23日

什么是终身学习？171页pdf最新《终身监督学习》新书阐述最新方法体系

什么是终身学习？171页pdf最新《终身监督学习》新书阐述最新方法体系

专知会员服务

88+阅读 · 2022年7月12日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

119+阅读 · 2022年3月18日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

41+阅读 · 2020年1月13日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

会议交流 | 盘点知识图谱的10大热点趋势与实践探索——DataFunSummit 2022 知识图谱在线峰会

会议交流 | 盘点知识图谱的10大热点趋势与实践探索——DataFunSummit 2022 知识图谱在线峰会

开放知识图谱

13+阅读 · 2022年3月8日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

IJCAI 2019 | 为推荐系统生成高质量的文本解释：基于互注意力机制的多任务学习模型

微软研究院AI头条

18+阅读 · 2019年8月13日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Multistep Quasimetric Learning for Scalable Goal-conditioned Reinforcement Learning

Arxiv

0+阅读 · 2月22日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Operationalizing Human Values in the Requirements Engineering Process of Ethics-Aware Autonomous Systems

Arxiv

0+阅读 · 2月10日

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

Arxiv

0+阅读 · 2月9日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

A computational framework for human values

Arxiv

0+阅读 · 2月4日

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Arxiv

0+阅读 · 2月4日

Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning

Arxiv

0+阅读 · 2月4日

AI and My Values: User Perceptions of LLMs' Ability to Extract, Embody, and Explain Human Values from Casual Conversations

Arxiv

0+阅读 · 1月30日

Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems

Arxiv

0+阅读 · 1月29日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于社会媒体异质关系挖掘的用户兴趣建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员