Robots often struggle to follow free-form human instructions in real-world settings due to computational and sensing limitations. We address this gap with a lightweight, fully on-device pipeline that converts natural-language commands into reliable manipulation. Our approach has two stages: (i) the instruction to actions module (Instruct2Act), a compact BiLSTM with a multi-head-attention autoencoder that parses an instruction into an ordered sequence of atomic actions (e.g., reach, grasp, move, place); and (ii) the robot action network (RAN), which uses the dynamic adaptive trajectory radial network (DATRN) together with a vision-based environment analyzer (YOLOv8) to generate precise control trajectories for each sub-action. The entire system runs on a modest system with no cloud services. On our custom proprietary dataset, Instruct2Act attains 91.5% sub-actions prediction accuracy while retaining a small footprint. Real-robot evaluations across four tasks (pick-place, pick-pour, wipe, and pick-give) yield an overall 90% success; sub-action inference completes in < 3.8s, with end-to-end executions in 30-60s depending on task complexity. These results demonstrate that fine-grained instruction-to-action parsing, coupled with DATRN-based trajectory generation and vision-guided grounding, provides a practical path to deterministic, real-time manipulation in resource-constrained, single-camera settings.


翻译:由于计算与感知能力的限制,机器人往往难以在真实世界环境中遵循自由形式的人类指令。我们提出了一种轻量级、完全在设备端运行的流程来解决这一差距,该流程可将自然语言指令转换为可靠的操控动作。我们的方法包含两个阶段:(i) 指令到动作模块(Instruct2Act),这是一个采用多头注意力自编码器的紧凑型BiLSTM,可将指令解析为有序的原子动作序列(例如,到达、抓取、移动、放置);以及(ii) 机器人动作网络(RAN),它结合动态自适应轨迹径向网络(DATRN)与基于视觉的环境分析器(YOLOv8),为每个子动作生成精确的控制轨迹。整个系统在无需云服务的适度配置系统上运行。在我们自有的专有数据集上,Instruct2Act实现了91.5%的子动作预测准确率,同时保持较小的模型体积。在四项任务(抓取-放置、抓取-倾倒、擦拭、抓取-递送)上的真实机器人评估显示总体成功率高达90%;子动作推理在<3.8秒内完成,端到端执行时间根据任务复杂度在30-60秒之间。这些结果表明,细粒度的指令到动作解析,结合基于DATRN的轨迹生成和视觉引导的环境感知,为在资源受限、单摄像头配置下实现确定性的实时操控提供了一条实用路径。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
相关VIP内容
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员