Large foundation models have made significant advances in embodied intelligence, enabling synthesis and reasoning over egocentric input for household tasks. However, VLM-based auto-labeling is often noisy because the primary data sources lack accurate human action labels, chain-of-thought (CoT), and spatial annotations; these errors are amplified during long-horizon spatial instruction following. These issues stem from insufficient coverage of minute-long, daily household planning tasks and from inaccurate spatial grounding. As a result, VLM reasoning chains and world-model synthesis can hallucinate objects, skip steps, or fail to respect real-world physical attributes. To address these gaps, we introduce EgoTL. EgoTL builds a think-aloud capture pipeline for egocentric data. It uses a say-before-act protocol to record step-by-step goals and spoken reasoning with word-level timestamps, then calibrates physical properties with metric-scale spatial estimators, a memory-bank walkthrough for scene context, and clip-level tags for navigation instructions and detailed manipulation actions. With EgoTL, we are able to benchmark VLMs and World Models on six task dimensions from three layers and long-horizon generation over minute-long sequences across over 100 daily household tasks. We find that foundation models still fall short as egocentric assistants or open-world simulators. Finally, we finetune foundation models with human CoT aligned with metric labels on the training split of EgoTL, which improves long-horizon planning and reasoning, step-wise reasoning, instruction following, and spatial grounding.


翻译:大型基础模型在具身智能领域取得了显著进展,能够基于自我中心输入完成家庭任务的综合推理。然而,基于VLM的自动标注常存在噪声问题,因为主要数据源缺乏精确的人类动作标签、思维链及空间标注;这些误差在长时空间指令跟随过程中被进一步放大。此类问题源于对分钟级日常家庭规划任务的覆盖不足以及空间定位不准确。因此,VLM推理链与世界模型合成可能出现物体幻觉、步骤遗漏或无法遵守真实物理属性。针对这些不足,我们提出EgoTL。EgoTL构建了一个针对自我中心数据的出声思维采集流水线,采用"先说后做"协议,以单词级时间戳记录逐步骤目标与口语推理,进而通过公制尺度空间估计器校准物理属性,借助记忆库遍历场景上下文,并利用片段级标签处理导航指令与精细操作动作。借助EgoTL,我们能够在三个层级、六大任务维度上评估VLM与世界模型,并在涵盖100余项日常家庭任务、分钟级序列的长时生成任务中进行测试。研究发现,基础模型在作为自我中心助理或开放世界模拟器时仍存在不足。最后,我们利用与公制标签对齐的人工思维链对EgoTL训练集上的基础模型进行微调,从而提升了长时规划推理、逐步推理、指令跟随及空间定位能力。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
最新《多任务学习》综述,39页pdf
专知会员服务
266+阅读 · 2020年7月10日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
1+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
1+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员