When Should a Robot Replan? Regret-Guided Update Scheduling in Time-Varying MDPs - 专知论文

会员服务 ·

0

时变 · 机器人 · 调度 · 状态估计 · 自适应 ·

When Should a Robot Replan? Regret-Guided Update Scheduling in Time-Varying MDPs

翻译：当机器人应何时重新规划？时变MDP中的遗憾引导更新调度

Negin Musavi,Gokul Puthumanaillam,Ruben Hernandez,William Schafer,Melkior Ornik

Robots operating in non-stationary environments must continually adapt their policies as the dynamics drift, but onboard energy and compute budgets cap how often a full state estimation and re-planning step can be performed. This raises a question: \emph{when}, along a horizon, should a robot spend its limited budget? We formulate this problem in time-varying Markov decision processes (TVMDPs) with a known bound on the rate of transition drift. We model execution as a \emph{skip-update} scheme in which, at chosen update times, the agent estimates the transition kernel by maximum likelihood and computes a finite-horizon policy, and between updates reuses this policy under a propagated state estimate. We analyze the dynamic regret of this scheme and show how it grows during skip intervals in terms of the properties of the TVMDP and the skip lengths; the resulting bound answers the opening question via an online, regret-guided update rule that allocates the budget adaptively. We evaluate the rule in a simulated Mars-rover navigation task with time-varying slip dynamics and on a Crazyflie quadrotor in indoor obstacle fields. Adaptive allocation outperforms other budgeted baselines.

翻译：运行于非平稳环境中的机器人必须随着动力学的漂移持续调整其策略，但机载能量与计算预算限制了全面状态估计与重规划步骤的执行频率。这引发了一个问题：在时间序列上，机器人应何时将有限的预算投入使用？我们在具有已知转移漂移速率的时变马尔可夫决策过程（TVMDP）中对此问题进行了建模。我们将执行过程建模为一种"跳跃更新"方案：在选定的更新时刻，智能体通过最大似然法估计转移核并计算有限时域策略，而在两次更新之间，则利用传播后的状态估计重复使用该策略。我们分析了该方案的动态遗憾，并展示了遗憾值如何根据TVMDP的属性与跳跃长度在跳跃区间内增长；由此得出的界限通过一种在线、遗憾引导的自适应预算分配更新规则，回答了开篇提出的问题。我们在具有时变滑移动态的火星车导航仿真任务以及室内障碍场中的Crazyflie四旋翼飞行器上对该规则进行了评估。自适应分配方法的性能优于其他预算受限的基线方法。

0

相关内容

《人机协作任务中的随机调度研究》72页

《人机协作任务中的随机调度研究》72页

专知会员服务

16+阅读 · 7月14日

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

17+阅读 · 2月10日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

22+阅读 · 2025年5月30日

《时空变化领域中的学习与决策》134页

《时空变化领域中的学习与决策》134页

专知会员服务

18+阅读 · 2025年5月10日

面向空间机器人辅助操作的任务规划方法研究

面向空间机器人辅助操作的任务规划方法研究

专知会员服务

22+阅读 · 2025年2月10日

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

专知会员服务

28+阅读 · 2024年11月3日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

52+阅读 · 2022年11月14日

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

专知会员服务

80+阅读 · 2022年11月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

52+阅读 · 2022年8月31日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

86+阅读 · 2022年8月29日

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

When Robots Sleep: Offline Skill Consolidation for Shared-Policy Robot Learning

Arxiv

0+阅读 · 6月16日

Elastic ODYN: Differentiable Optimization for Infeasible Control and Learning in Robotics

Arxiv

0+阅读 · 6月15日

PO-PDDL: Learning Symbolic POMDPs from Visual Demonstrations for Robot Planning Under Uncertainty

Arxiv

0+阅读 · 6月14日

Robots as Tokens: Unified Diffusion Transformer for Coordinated Multi-Robot Trajectory Generation

Arxiv

0+阅读 · 6月14日

ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation

Arxiv

0+阅读 · 6月12日

Dynamic Execution Horizon Prediction for Chunk-based Robot Policies

Arxiv

0+阅读 · 6月9日

Adaptive Artificial Time-Delay Control with Barrier Lyapunov Constraints for Euler-Lagrange Robots

Arxiv

0+阅读 · 6月8日

Personalized and Robust Proactive Robot Assistance with Uncertainty-Guided LLM Reasoning

Arxiv

0+阅读 · 6月7日

Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies

Arxiv

0+阅读 · 6月2日

On-Device Robotic Planning: Eliminating Inference Redundancy for Efficient Decision-Making

Arxiv

0+阅读 · 5月29日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《人机协作任务中的随机调度研究》72页

《人机协作任务中的随机调度研究》72页

专知会员服务

16+阅读 · 7月14日

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

17+阅读 · 2月10日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

22+阅读 · 2025年5月30日

《时空变化领域中的学习与决策》134页

《时空变化领域中的学习与决策》134页

专知会员服务

18+阅读 · 2025年5月10日

面向空间机器人辅助操作的任务规划方法研究

面向空间机器人辅助操作的任务规划方法研究

专知会员服务

22+阅读 · 2025年2月10日

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

专知会员服务

28+阅读 · 2024年11月3日

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

《集群机器人中自组织任务分配的全局到局部设计》2022最新12页论文，布鲁塞尔自由大学等

专知会员服务

52+阅读 · 2022年11月14日

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

【多机器人任务分配】《通过学习的子团队性能对异构多机器人路由问题进行分层规划》美国陆军、MIT等2022最新论文

专知会员服务

80+阅读 · 2022年11月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

52+阅读 · 2022年8月31日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

86+阅读 · 2022年8月29日

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

相关论文

When Robots Sleep: Offline Skill Consolidation for Shared-Policy Robot Learning

Arxiv

0+阅读 · 6月16日

Elastic ODYN: Differentiable Optimization for Infeasible Control and Learning in Robotics

Arxiv

0+阅读 · 6月15日

PO-PDDL: Learning Symbolic POMDPs from Visual Demonstrations for Robot Planning Under Uncertainty

Arxiv

0+阅读 · 6月14日

Robots as Tokens: Unified Diffusion Transformer for Coordinated Multi-Robot Trajectory Generation

Arxiv

0+阅读 · 6月14日

ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation

Arxiv

0+阅读 · 6月12日

Dynamic Execution Horizon Prediction for Chunk-based Robot Policies

Arxiv

0+阅读 · 6月9日

Adaptive Artificial Time-Delay Control with Barrier Lyapunov Constraints for Euler-Lagrange Robots

Arxiv

0+阅读 · 6月8日

Personalized and Robust Proactive Robot Assistance with Uncertainty-Guided LLM Reasoning

Arxiv

0+阅读 · 6月7日

Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies

Arxiv

0+阅读 · 6月2日

On-Device Robotic Planning: Eliminating Inference Redundancy for Efficient Decision-Making

Arxiv

0+阅读 · 5月29日

相关基金

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员