Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback - 专知论文

会员服务 ·

0

交互 · 算法 · 上下文 · 马尔可夫决策过程 · 片段 ·

Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback

翻译：基于个性化反馈的上下文马尔可夫决策过程的交互式基础学习

Mengxiao Zhang,Yuheng Zhang,Haipeng Luo,Paul Mineiro

In this paper, we study Interaction-Grounded Learning (IGL) [Xie et al., 2021], a paradigm designed for realistic scenarios where the learner receives indirect feedback generated by an unknown mechanism, rather than explicit numerical rewards. While prior work on IGL provides efficient algorithms with provable guarantees, those results are confined to single-step settings, restricting their applicability to modern sequential decision-making systems such as multi-turn Large Language Model (LLM) deployments. To bridge this gap, we propose a computationally efficient algorithm that achieves a sublinear regret guarantee for contextual episodic Markov Decision Processes (MDPs) with personalized feedback. Technically, we extend the reward-estimator construction of Zhang et al. [2024a] from the single-step to the multi-step setting, addressing the unique challenges of decoding latent rewards under MDPs. Building on this estimator, we design an Inverse-Gap-Weighting (IGW) algorithm for policy optimization. Finally, we demonstrate the effectiveness of our method in learning personalized objectives from multi-turn interactions through experiments on both a synthetic episodic MDP and a real-world user booking dataset.

翻译：本文研究交互式基础学习（IGL）[Xie et al., 2021]，该范式专为现实场景设计，其中学习者接收由未知机制生成的间接反馈，而非显式数值奖励。尽管先前关于IGL的研究提供了具有可证明保证的高效算法，但这些结果仅限于单步设置，限制了其在现代序列决策系统（如多轮大型语言模型部署）中的适用性。为弥合这一差距，我们提出一种计算高效的算法，该算法在具有个性化反馈的上下文片段马尔可夫决策过程中实现了次线性遗憾保证。在技术上，我们将Zhang等人[2024a]的奖励估计器构建从单步设置扩展到多步设置，解决了在MDP下解码潜在奖励的独特挑战。基于此估计器，我们设计了一种用于策略优化的逆间隙加权算法。最后，通过在合成片段MDP和真实世界用户预订数据集上的实验，我们证明了该方法在从多轮交互中学习个性化目标方面的有效性。

0

相关内容

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

《基于知识图谱的有限交互决策过程框架》17页论文

《基于知识图谱的有限交互决策过程框架》17页论文

专知会员服务

66+阅读 · 2023年3月5日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

73+阅读 · 2023年2月23日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

64+阅读 · 2022年10月28日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

线上渠道交互对线下渠道绩效的影响：基于双路径的理论和实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

CRED: Counterfactual Reasoning and Environment Design for Active Preference Learning

Arxiv

0+阅读 · 3月9日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Arxiv

0+阅读 · 3月4日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

Arxiv

0+阅读 · 2月18日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics

Arxiv

0+阅读 · 2月6日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

马尔可夫决策过程

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

10+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

10+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

【博士论文】社交与对抗性数据源下的可信机器学习

【博士论文】社交与对抗性数据源下的可信机器学习

专知会员服务

18+阅读 · 2024年8月9日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

《基于知识图谱的有限交互决策过程框架》17页论文

《基于知识图谱的有限交互决策过程框架》17页论文

专知会员服务

66+阅读 · 2023年3月5日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

73+阅读 · 2023年2月23日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

64+阅读 · 2022年10月28日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

开放知识图谱

20+阅读 · 2019年10月12日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

CRED: Counterfactual Reasoning and Environment Design for Active Preference Learning

Arxiv

0+阅读 · 3月9日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Arxiv

0+阅读 · 3月4日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

Arxiv

0+阅读 · 2月18日

Learning Personalized Agents from Human Feedback

Arxiv

0+阅读 · 2月18日

Cochain Perspectives on Temporal-Difference Signals for Learning Beyond Markov Dynamics

Arxiv

0+阅读 · 2月6日

Learning to summarize user information for personalized reinforcement learning from human feedback

Arxiv

0+阅读 · 2月5日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

Arxiv

0+阅读 · 1月30日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

线上渠道交互对线下渠道绩效的影响：基于双路径的理论和实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员