Learning to Recommend in Unknown Games - 专知论文

会员服务 ·

0

博弈 · 效用 · 交互 · 智能体 · 最优 ·

Learning to Recommend in Unknown Games

翻译：未知博弈中的推荐学习

Arwa Alanqary,Zakaria Baba,Manxi Wu,Alexandre M. Bayen

We study preference learning through recommendations in multi-agent game settings, where a moderator repeatedly interacts with agents whose utility functions are unknown. In each round, the moderator issues action recommendations and observes whether agents follow or deviate from them. We consider two canonical behavioral feedback models-best response and quantal response-and study how the information revealed by each model affects the learnability of agents' utilities. We show that under quantal-response feedback the game is learnable, up to a positive affine equivalence class, with logarithmic sample complexity in the desired precision, whereas best-response feedback can only identify a larger set of agents' utilities. We give a complete geometric characterization of this set. Moreover, we introduce a regret notion based on agents' incentives to deviate from recommendations and design an online algorithm with low regret under both feedback models, with bounds scaling linearly in the game dimension and logarithmically in time. Our results lay a theoretical foundation for AI recommendation systems in strategic multi-agent environments, where recommendation compliances are shaped by strategic interaction.

翻译：本文研究多智能体博弈环境下的偏好学习问题，其中协调者需与效用函数未知的智能体进行重复交互。在每一轮交互中，协调者发布动作推荐并观察智能体选择遵循或偏离推荐的行为。我们考虑两种典型行为反馈模型——最优响应与量子响应，并分析每种模型所揭示的信息如何影响智能体效用函数的可学习性。研究证明：在量子响应反馈机制下，博弈效用函数可在正仿射等价类意义下以期望精度的对数样本复杂度实现可学习；而最优响应反馈仅能识别更大范围的智能体效用函数集合。我们对该集合给出了完整的几何特征描述。此外，我们提出基于智能体偏离推荐动机的遗憾概念，并设计出在两种反馈模型下均具有低遗憾值的在线算法，其遗憾界随博弈维度线性增长、随时间对数增长。本研究为战略多智能体环境中的人工智能推荐系统奠定了理论基础，其中推荐遵从度由战略交互行为塑造。

0

相关内容

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

51+阅读 · 2024年11月23日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

90+阅读 · 2024年5月5日

【新书】深度学习中的博弈论应用

【新书】深度学习中的博弈论应用

专知会员服务

84+阅读 · 2024年3月27日

【阿姆斯特丹博士论文】从有偏见的用户互动中学习推荐系统，127页pdf

【阿姆斯特丹博士论文】从有偏见的用户互动中学习推荐系统，127页pdf

专知会员服务

24+阅读 · 2024年2月4日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

314+阅读 · 2022年6月23日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【WWW2021】面向推荐学习公平表示：一种图视角

专知会员服务

30+阅读 · 2021年2月21日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

专知

20+阅读 · 2017年12月13日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

Learning a Game by Paying the Agents

Arxiv

0+阅读 · 3月2日

Learning to Control Unknown Strongly Monotone Games

Arxiv

0+阅读 · 2月24日

A potentialization algorithm for games with applications to multi-agent learning in repeated games

Arxiv

0+阅读 · 2月21日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Learning in Structured Stackelberg Games

Arxiv

0+阅读 · 2月12日

Games with Payments between Learning Agents

Arxiv

0+阅读 · 2月11日

The Learning Approach to Games

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

7+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

51+阅读 · 2024年11月23日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

90+阅读 · 2024年5月5日

【新书】深度学习中的博弈论应用

【新书】深度学习中的博弈论应用

专知会员服务

84+阅读 · 2024年3月27日

【阿姆斯特丹博士论文】从有偏见的用户互动中学习推荐系统，127页pdf

【阿姆斯特丹博士论文】从有偏见的用户互动中学习推荐系统，127页pdf

专知会员服务

24+阅读 · 2024年2月4日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

314+阅读 · 2022年6月23日

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

【经典书】《无记忆多智能体系统中的博弈论学习和分布式优化》176页pdf

专知会员服务

54+阅读 · 2022年6月14日

【WWW2021】面向推荐学习公平表示：一种图视角

专知会员服务

30+阅读 · 2021年2月21日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

【下载】深度学习与围棋实战书籍《Deep Learning and the Game of Go》

专知

20+阅读 · 2017年12月13日

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

【机器学习】【推荐系统】做推荐系统之前，希望有人告诉我这些

产业智能官

11+阅读 · 2017年10月14日

相关论文

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

Learning a Game by Paying the Agents

Arxiv

0+阅读 · 3月2日

Learning to Control Unknown Strongly Monotone Games

Arxiv

0+阅读 · 2月24日

A potentialization algorithm for games with applications to multi-agent learning in repeated games

Arxiv

0+阅读 · 2月21日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 2月19日

Learning in Structured Stackelberg Games

Arxiv

0+阅读 · 2月12日

Games with Payments between Learning Agents

Arxiv

0+阅读 · 2月11日

The Learning Approach to Games

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员