Recent advancements in vision-language-action (VLA) models have shown promise in robotic manipulation, yet they continue to struggle with long-horizon, multi-step tasks. Existing methods lack internal reasoning mechanisms that can identify task-relevant interaction cues or track progress within a subtask, leading to critical execution errors such as repeated actions, missed steps, and premature termination. To address these challenges, we introduce PALM, a VLA framework that structures policy learning around interaction-centric affordance reasoning and subtask progress cues. PALM distills complementary affordance representations that capture object relevance, contact geometry, spatial placements, and motion dynamics, and serve as task-relevant anchors for visuomotor control. To further stabilize long-horizon execution, PALM predicts continuous within-subtask progress, enabling seamless subtask transitions. Across extensive simulation and real-world experiments, PALM consistently outperforms baselines, achieving a 91.8% success rate on LIBERO-LONG, a 12.5% improvement in average length on CALVIN ABC->D, and a 2x improvement over real-world baselines across three long-horizon generalization settings.


翻译:近期视觉-语言-动作(VLA)模型在机器人操作领域展现出潜力,但在处理长时程、多步骤任务时仍面临困难。现有方法缺乏能够识别任务相关交互线索或在子任务内跟踪进展的内部推理机制,导致重复动作、步骤遗漏和过早终止等关键执行错误。为解决这些挑战,我们提出了PALM,这是一个围绕以交互为中心的可供性推理和子任务进展线索构建策略学习的VLA框架。PALM提炼出互补的可供性表征,这些表征捕捉物体相关性、接触几何、空间布局和运动动态,并作为视觉运动控制的任务相关锚点。为进一步稳定长时程执行,PALM预测连续的子任务内进展,从而实现无缝的子任务转换。在大量仿真和真实世界实验中,PALM始终优于基线方法,在LIBERO-LONG上实现了91.8%的成功率,在CALVIN ABC->D上平均长度提升了12.5%,并在三种长时程泛化设置中实现了相对于真实世界基线2倍的性能提升。

0
下载
关闭预览

相关内容

Palm(官方中文名称奔迈)是一种掌上电脑硬件的品牌名称,采用名为 Palm OS 的操作系统。
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
干货 | 可解释的机器学习
AI科技评论
20+阅读 · 2019年7月3日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
3+阅读 · 4月22日
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 4月22日
伊朗战争中的电子战
专知会员服务
5+阅读 · 4月22日
大语言模型平台在国防情报应用中的对比
专知会员服务
9+阅读 · 4月22日
相关VIP内容
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员