Translating video demonstrations into executable robot commands remains challenging because existing methods often fail to identify which objects are functionally involved in the demonstrated action. As a result, they may generate commands that are linguistically plausible but operationally ambiguous. We propose an object-centric video understanding framework that decouples action recognition from object identification to generate precise, grammar-free manipulation commands. Our approach integrates Temporal Shift Modules (TSM) for efficient spatio-temporal action classification with a novel \textbf{Object Selection} algorithm that identifies task-relevant objects through trajectory-based role classification, blur detection, and overlap minimization. The selected objects are then processed by Vision-Language Models (VLMs) for robust category recognition and zero-shot generalization. Evaluated on a modified Something-Something V2 dataset, our method achieves 86.79\% action classification accuracy and BLEU-4 scores of 0.337 on standard objects and 0.261 on novel objects. These results improve over the strongest task-specific baseline by 80.2\% and 143.9\%, respectively. Larger gains are observed in METEOR and CIDEr, reaching 157.9\% and 171.7\% on novel objects. Across all semantic metrics, our approach consistently outperforms task-specific methods and remains competitive with, or surpasses, large general-purpose VLMs while retaining a modular, object-centric design.


翻译:将视频演示转化为可执行机器人指令仍具挑战性,现有方法常无法识别演示动作中实际参与的功能性对象,进而生成语言上合理但操作模糊的指令。我们提出以对象为中心的视频理解框架,通过解耦动作识别与对象识别,生成精确且无语法依赖的操作指令。该方法集成时序移位模块实现高效时空动作分类,并创新提出**对象选择**算法,基于轨迹角色分类、模糊检测与重叠最小化识别任务相关对象。选定对象随后由视觉语言模型处理,实现鲁棒类别识别与零样本泛化。在改进版Something-Something V2数据集上评估,本方法动作分类准确率达86.79%,标准对象与新型对象的BLEU-4得分分别为0.337与0.261,较最强任务专用基线分别提升80.2%与143.9%。METEOR与CIDEr指标提升更为显著,在新型对象上分别达157.9%与171.7%。所有语义指标均持续优于任务专用方法,与大型通用视觉语言模型持平甚至超越,同时保持模块化以对象为中心的设计特性。

0
下载
关闭预览

相关内容

NSR综述:生成式人工智能 | 赫然、曹杰、谭铁牛
专知会员服务
37+阅读 · 2025年3月10日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关资讯
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员