This paper introduces OMAR: One Model, All Roles, a reinforcement learning framework that enables AI to develop social intelligence through multi-turn, multi-agent conversational self-play. Unlike traditional paradigms that rely on static, single-turn optimizations, OMAR allows a single model to role-play all participants in a conversation simultaneously, learning to achieve long-term goals and complex social norms directly from dynamic social interaction. To ensure training stability across long dialogues, we implement a hierarchical advantage estimation that calculates turn-level and token-level advantages. Evaluations in the SOTOPIA social environment and Werewolf strategy games show that our trained models develop fine-grained, emergent social intelligence, such as empathy, persuasion, and compromise seeking, demonstrating the effectiveness of learning collaboration even under competitive scenarios. While we identify practical challenges like reward hacking, our results show that rich social intelligence can emerge without human supervision. We hope this work incentivizes further research on AI social intelligence in group conversations.


翻译:本文提出OMAR(单一模型,多重角色)强化学习框架,该框架通过多轮次、多智能体的对话式自博弈,使人工智能能够发展社会智能。与依赖静态单轮优化的传统范式不同,OMAR允许单一模型同时扮演对话中的所有参与者,直接从动态社会互动中学习实现长期目标与复杂社会规范。为确保长对话训练的稳定性,我们实现了分层优势估计方法,分别计算轮次级别与词元级别的优势。在SOTOPIA社会环境和狼人杀策略游戏中的评估表明,经训练的模型能够发展出细粒度的、涌现式的社会智能,如共情、说服与寻求妥协,即使在竞争性场景下也展现出学习协作的有效性。尽管我们发现了奖励破解等实际挑战,但研究结果表明,丰富的社会智能可以在无需人类监督的情况下自然涌现。我们希望这项工作能激励针对群体对话中人工智能社会智能的进一步研究。

0
下载
关闭预览

相关内容

基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体博弈学习研究进展
专知会员服务
89+阅读 · 2024年5月5日
多智能体博弈、学习与控制
专知会员服务
127+阅读 · 2023年1月18日
博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides
专知会员服务
140+阅读 · 2022年11月26日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体博弈学习研究进展
专知会员服务
89+阅读 · 2024年5月5日
多智能体博弈、学习与控制
专知会员服务
127+阅读 · 2023年1月18日
博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides
专知会员服务
140+阅读 · 2022年11月26日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员