Designing intuitive interfaces for robotic control remains a central challenge in enabling effective human-robot interaction, particularly in assistive care settings. Eye gaze offers a fast, non-intrusive, and intent-rich input modality, making it an attractive channel for conveying user goals. In this work, we present GAMMA (Gaze Assisted Manipulation for Modular Autonomy), a system that leverages ego-centric gaze tracking and a vision-language model to infer user intent and autonomously execute robotic manipulation tasks. By contextualizing gaze fixations within the scene, the system maps visual attention to high-level semantic understanding, enabling skill selection and parameterization without task-specific training. We evaluate GAMMA on a range of table-top manipulation tasks and compare it against baseline gaze-based control without reasoning. Results demonstrate that GAMMA provides robust, intuitive, and generalizable control, highlighting the potential of combining foundation models and gaze for natural and scalable robot autonomy. Project website: https://gamma0.vercel.app/


翻译:为机器人控制设计直观界面仍然是实现有效人机交互的核心挑战,尤其在辅助护理场景中。视线提供了一种快速、非侵入性且富含意图的输入方式,使其成为传达用户目标的有吸引力的通道。在本工作中,我们提出了GAMMA(面向模块化自主性的视线辅助操作),该系统利用以自我为中心的视线追踪和视觉语言模型来推断用户意图,并自主执行机器人操作任务。通过将注视点置于场景上下文中,系统将视觉注意力映射到高级语义理解,从而无需针对特定任务进行训练即可实现技能选择和参数化。我们在多种桌面操作任务上评估了GAMMA,并将其与不具备推理能力的基线视线控制方法进行比较。结果表明,GAMMA提供了鲁棒、直观且可泛化的控制,凸显了将基础模型与视线结合以实现自然且可扩展的机器人自主性的潜力。项目网站:https://gamma0.vercel.app/

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员