Robots operating in human-shared environments must not only achieve task-level navigation objectives such as safety and efficiency, but also adapt their behavior to human preferences. However, as human preferences are typically expressed in natural language and depend on environmental context, it is difficult to directly integrate them into low-level robot control policies. In this work, we present a pipeline that enables robots to understand and apply context-dependent navigation preferences by combining foundational models with a Multi-Objective Reinforcement Learning (MORL) navigation policy. Thus, our approach integrates high-level semantic reasoning with low-level motion control. A Vision-Language Model (VLM) extracts structured environmental context from onboard visual observations, while Large Language Models (LLM) convert natural language user feedback into interpretable, context-dependent behavioral rules stored in a persistent but updatable rule memory. A preference translation module then maps contextual information and stored rules into numerical preference vectors that parameterize a pretrained MORL policy for real-time navigation adaptation. We evaluate the proposed framework through quantitative component-level evaluations, a user study, and real-world robot deployments in various indoor environments. Our results demonstrate that the system reliably captures user intent, generates consistent preference vectors, and enables controllable behavior adaptation across diverse contexts. Overall, the proposed pipeline improves the adaptability, transparency, and usability of robots operating in shared human environments, while maintaining safe and responsive real-time control.


翻译:在人类共享环境中运行的机器人不仅需要实现安全与效率等任务级导航目标,还必须使其行为适应人类偏好。然而,由于人类偏好通常以自然语言表达且依赖于环境上下文,难以直接将其整合到低层机器人控制策略中。本研究提出一种流程框架,通过将基础模型与多目标强化学习导航策略相结合,使机器人能够理解并应用上下文相关的导航偏好。该框架实现了高层语义推理与底层运动控制的融合:视觉语言模型从机载视觉观测中提取结构化环境上下文,大型语言模型则将自然语言用户反馈转化为可解释的、上下文相关的行为规则,并存储于持久可更新的规则记忆库中。偏好转换模块随后将上下文信息与存储规则映射为数值化偏好向量,这些向量参数化预训练的多目标强化学习策略,实现实时导航自适应。我们通过定量组件评估、用户研究及多种室内环境下的真实机器人部署对所提框架进行验证。结果表明,该系统能够可靠捕获用户意图、生成一致的偏好向量,并在多样上下文环境中实现可控的行为适应。总体而言,所提出的流程框架在保持安全响应式实时控制的同时,显著提升了在人类共享环境中运行机器人的适应性、透明度和可用性。

0
下载
关闭预览

相关内容

国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
具身AI安全综述:风险、攻击与防御
专知会员服务
1+阅读 · 30分钟前
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
11+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
14+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
相关资讯
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员