The advent of always-on personal AI assistants, enabled by all-day wearable devices such as smart glasses, demands a new level of contextual understanding, one that goes beyond short, isolated events to encompass the continuous, longitudinal stream of egocentric video. Achieving this vision requires advances in long-horizon video understanding, where systems must interpret and recall visual and audio information spanning days or even weeks. Existing methods, including large language models and retrieval-augmented generation, are constrained by limited context windows and lack the ability to perform compositional, multi-hop reasoning over very long video streams. In this work, we address these challenges through EGAgent, an enhanced agentic framework centered on entity scene graphs, which represent people, places, objects, and their relationships over time. Our system equips a planning agent with tools for structured search and reasoning over these graphs, as well as hybrid visual and audio search capabilities, enabling detailed, cross-modal, and temporally coherent reasoning. Experiments on the EgoLifeQA and Video-MME (Long) datasets show that our method achieves state-of-the-art performance on EgoLifeQA (57.5%) and competitive performance on Video-MME (Long) (74.1%) for complex longitudinal video understanding tasks. Code is available at https://github.com/facebookresearch/egagent.


翻译:随着全天候可穿戴设备(如智能眼镜)实现的全时在线个人AI助手的出现,对上下文理解提出了新的要求:这种理解需超越短暂、孤立的事件,涵盖连续、纵向的第一人称视频流。实现这一愿景需要长时域视频理解技术的进步,系统必须能够解读并回忆跨越数天甚至数周的视觉与音频信息。现有方法,包括大语言模型和检索增强生成,受限于有限的上下文窗口,且缺乏对超长视频流进行组合式多跳推理的能力。在本工作中,我们通过EGAgent应对这些挑战,这是一个以实体场景图为中心的增强型智能体框架,该图表示随时间变化的人物、地点、物体及其相互关系。我们的系统为规划智能体配备了工具,用于对这些图进行结构化搜索与推理,并具备混合视觉与音频搜索能力,从而实现细致、跨模态且时间连贯的推理。在EgoLifeQA和Video-MME(Long)数据集上的实验表明,对于复杂的纵向视频理解任务,我们的方法在EgoLifeQA上达到了最先进的性能(57.5%),并在Video-MME(Long)上取得了有竞争力的性能(74.1%)。代码可在https://github.com/facebookresearch/egagent获取。

0
下载
关闭预览

相关内容

伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
43+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
视觉知识:跨媒体智能进化的新支点
专知会员服务
28+阅读 · 2022年6月8日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
3+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
3+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
7+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
3+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
6+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员