Autonomous agents are often required to plan under multiple objectives whose preference ordering varies based on context. The agent may encounter multiple contexts during its course of operation, each imposing a distinct lexicographic ordering over the objectives, with potentially different reward functions associated with each context. Existing approaches to multi-objective planning typically consider a single preference ordering over the objectives, across the state space, and do not support planning under multiple objective orderings within an environment. We present Contextual Lexicographic Markov Decision Process (CLMDP), a framework that enables planning under varying lexicographic objective orderings, depending on the context. In a CLMDP, both the objective ordering at a state and the associated reward functions are determined by the context. We employ a Bayesian approach to infer a state-context mapping from expert trajectories. Our algorithm to solve a CLMDP first computes a policy for each objective ordering and then combines them into a single context-aware policy that is valid and cycle-free. The effectiveness of the proposed approach is evaluated in simulation and using a mobile robot.


翻译:自主智能体通常需要在多目标下进行规划,这些目标的偏好排序会随上下文变化。智能体在运行过程中可能遇到多种上下文,每种上下文对目标施加不同的词典序排序,且可能对应不同的奖励函数。现有的多目标规划方法通常考虑在整个状态空间中采用单一的目标偏好排序,无法支持在同一环境中基于多种目标排序进行规划。本文提出上下文词典序马尔可夫决策过程(CLMDP),该框架支持根据不同上下文进行词典序目标排序的规划。在CLMDP中,状态的词典序目标排序及其关联的奖励函数均由上下文决定。我们采用贝叶斯方法从专家轨迹中推断状态-上下文映射关系。求解CLMDP的算法首先为每种目标排序计算策略,随后将其组合为单一且无环的上下文感知策略。通过仿真和移动机器人实验验证了所提方法的有效性。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【AAAI2023】图序注意力网络
专知会员服务
46+阅读 · 2022年11月24日
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
VIP会员
最新内容
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
2+阅读 · 56分钟前
《实现联合作战能力所需的技术》58页报告
专知会员服务
1+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
1+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
13+阅读 · 4月25日
多智能体协作机制
专知会员服务
12+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
相关VIP内容
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【AAAI2023】图序注意力网络
专知会员服务
46+阅读 · 2022年11月24日
Python图像处理,366页pdf,Image Operators Image Processing in Python
相关论文
Arxiv
18+阅读 · 2024年12月27日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
A Survey on Edge Intelligence
Arxiv
52+阅读 · 2020年3月26日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员