EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking - 专知论文

会员服务 ·

0

自适应 · 结构 · 结构化 · 对齐 · 微调 ·

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

翻译：EgoReasoner：通过任务自适应结构化思维学习以自我为中心的4D推理

Fangrui Zhu,Yunfeng Xi,Jianmo Ni,Mu Cai,Boqing Gong,Long Zhao,Chen Qu,Ian Miao,Yi Li,Cheng Zhong,Huaizu Jiang,Shwetak Patel

from arxiv, preprint

Egocentric video understanding is inherently complex due to the dynamic 4D nature of the environment, where camera motion and object displacements necessitate a continuous re-evaluation of spatial relations. In this work, we target a suite of under-explored egocentric 4D reasoning tasks, including fixture interaction counting, viewpoint-relative fixture location, object movement itinerary tracking, and stationary object localization, that require fundamentally different cognitive operations: spatial anchoring, temporal tracking, and duration reasoning. We observe that these structural differences make task-agnostic approaches insufficient: generic Chain-of-Thought methods lack task-appropriate reasoning primitives, and uniform reinforcement learning actively destabilizes performance on spatial tasks. To address this, we propose EgoReasoner, a two-stage framework that aligns both the reasoning scaffold and the reward signal to each task's cognitive structure. In the first stage, Task-Adaptive Thinking Templates guide the synthesis of structured CoT traces that teach the model to reason adaptively across task types via supervised fine-tuning. In the second stage, task-aware reward functions verify entity grounding, temporal alignment, and task-adaptive logical consistency, selectively strengthening each reasoning pathway via reinforcement fine-tuning with GRPO. Our 3B-parameter model, trained on only 16K samples, achieves 37.5% average accuracy on the challenging HD-EPIC benchmark, surpassing Qwen2.5-VL-7B (25.7%) by over 10 points.

翻译：以自我为中心的视频理解因其环境的动态4D特性而本质复杂，其中相机运动和物体位移需要对空间关系进行持续重新评估。在本工作中，我们针对一系列尚未充分探索的以自我为中心的4D推理任务，包括固定装置交互计数、视角相对固定装置定位、物体移动行程跟踪以及静止物体定位，这些任务需要根本不同的认知操作：空间锚定、时间追踪和持续时间推理。我们观察到，这些结构差异使得任务无关的方法不足：通用的思维链方法缺乏任务适配的推理基元，而统一的强化学习会主动破坏空间任务的性能。为解决此问题，我们提出了EgoReasoner，一个两阶段框架，该框架将推理支架和奖励信号与每个任务的认知结构对齐。在第一阶段，任务自适应思维模板指导结构化思维链轨迹的合成，通过监督微调教导模型跨任务类型进行自适应推理。在第二阶段，任务感知的奖励函数验证实体接地、时间对齐和任务自适应逻辑一致性，通过使用GRPO的强化微调有选择地强化每条推理路径。我们的30亿参数模型，仅用16K样本训练，在具有挑战性的HD-EPIC基准测试中达到了37.5%的平均准确率，超越了Qwen2.5-VL-7B（25.7%）超过10个百分点。

0

相关内容

自适应

视频理解：从几何与语义表征到统一模型架构

视频理解：从几何与语义表征到统一模型架构

专知会员服务

20+阅读 · 3月21日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

三维视觉-语言推理技术的前沿研究与最新趋势

三维视觉-语言推理技术的前沿研究与最新趋势

专知会员服务

24+阅读 · 2024年5月6日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

55+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

137+阅读 · 2022年11月23日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

Arxiv

0+阅读 · 4月28日

CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning

Arxiv

0+阅读 · 4月14日

EgoTL: Egocentric Think-Aloud Chains for Long-Horizon Tasks

Arxiv

0+阅读 · 4月10日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

EgoDemoGen: Egocentric Demonstration Generation for Viewpoint Generalization in Robotic Manipulation

Arxiv

0+阅读 · 3月30日

EgoForge: Goal-Directed Egocentric World Simulator

Arxiv

0+阅读 · 3月20日

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Arxiv

0+阅读 · 3月16日

Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning

Arxiv

0+阅读 · 3月16日

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Arxiv

0+阅读 · 3月10日

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

0+阅读 · 今天16:23

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

0+阅读 · 今天16:20

安杜里尔与Meta研发军用智能眼镜的内幕

安杜里尔与Meta研发军用智能眼镜的内幕

专知会员服务

5+阅读 · 今天8:47

《GPS拒止环境中的网络化赋能目标锁定》总结报告

《GPS拒止环境中的网络化赋能目标锁定》总结报告

专知会员服务

4+阅读 · 今天8:40

超越步调威胁：整合人工智能以加速指挥决策

超越步调威胁：整合人工智能以加速指挥决策

专知会员服务

5+阅读 · 今天8:08

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

专知会员服务

4+阅读 · 今天7:56

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

7+阅读 · 5月21日

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

8+阅读 · 5月21日

安杜里尔与人工智能驱动防务的崛起

安杜里尔与人工智能驱动防务的崛起

专知会员服务

14+阅读 · 5月21日

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

《人工智能战争机器：安杜里尔与创新的武器化》36页报告

专知会员服务

23+阅读 · 5月21日

《Palantir对联合全域指挥控制（JADC2）的支持能力》

《Palantir对联合全域指挥控制（JADC2）的支持能力》

专知会员服务

16+阅读 · 5月21日

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

《用于美海军作战力量战略部署与分散（SLD）的大规模人工智能（AI）》简报

专知会员服务

12+阅读 · 5月21日

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

《数字景观军事演示：AI决策系统的虚拟呈现——Palantir TITAN和 Anduril Lattice系统分析》

专知会员服务

22+阅读 · 5月21日

《Palantir平台：FOUNDRY与AIP服务定义文档》

《Palantir平台：FOUNDRY与AIP服务定义文档》

专知会员服务

15+阅读 · 5月21日

2025年科学计算行业发展研究报告

2025年科学计算行业发展研究报告

专知会员服务

9+阅读 · 5月20日

相关VIP内容

视频理解：从几何与语义表征到统一模型架构

视频理解：从几何与语义表征到统一模型架构

专知会员服务

20+阅读 · 3月21日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

26+阅读 · 2025年11月17日

三维视觉-语言推理技术的前沿研究与最新趋势

三维视觉-语言推理技术的前沿研究与最新趋势

专知会员服务

24+阅读 · 2024年5月6日

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

AI4Math？IJCAI2023最新《数学推理中的深度学习》教程，详述深度学习数学推理最新进展与未来展望，243页ppt

专知会员服务

56+阅读 · 2023年8月28日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

55+阅读 · 2022年11月25日

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

推荐！【DARPA终身学习机器（L2M）项目支持】《自主系统中用于感知和行动的终身学习》美国空军、宾夕法尼亚大学2022最新234页技术总结报告

专知会员服务

137+阅读 · 2022年11月23日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

自动结构变分推理，Automatic structured variational inference

自动结构变分推理，Automatic structured variational inference

专知会员服务

41+阅读 · 2020年2月10日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

《GPS拒止环境中的网络化赋能目标锁定》总结报告

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

安杜里尔与Meta研发军用智能眼镜的内幕

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

19+阅读 · 2022年7月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

Arxiv

0+阅读 · 4月28日

CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning

Arxiv

0+阅读 · 4月14日

EgoTL: Egocentric Think-Aloud Chains for Long-Horizon Tasks

Arxiv

0+阅读 · 4月10日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

EgoDemoGen: Egocentric Demonstration Generation for Viewpoint Generalization in Robotic Manipulation

Arxiv

0+阅读 · 3月30日

EgoForge: Goal-Directed Egocentric World Simulator

Arxiv

0+阅读 · 3月20日

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Arxiv

0+阅读 · 3月16日

Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning

Arxiv

0+阅读 · 3月16日

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Arxiv

0+阅读 · 3月10日

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

Arxiv

0+阅读 · 2月24日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员