Memory has become an increasingly important component of agentic systems, as these systems are expected to reason over long-term experience. However, prior work has largely focused on unimodal memory, leaving multimodal memory relatively underexplored despite its central role in real-world applications. Compared with unimodal settings, multimodal memory introduces additional challenges, including heterogeneous input integration, person-centric information alignment, and evidence aggregation across different granularities. We present PyraVid, a hierarchical multimodal memory framework inspired by Event Segmentation Theory from cognitive science. PyraVid organizes long videos into a coarse-to-fine pyramid structure, enabling structured memory access and effective evidence aggregation. It further supports structure-guided memory expansion with pruning, allowing the retrieval of related events with strong causal connectivity but low semantic similarity while reducing noise. Experiments on multiple long-video understanding benchmarks show that PyraVid consistently improves performance across datasets, model scales, and question types, highlighting the effectiveness of hierarchical multimodal memory for long-horizon reasoning.


翻译:摘要:记忆已成为智能系统日益重要的组成部分,因为这类系统需要基于长期经验进行推理。然而,先前的研究大多聚焦于单模态记忆,而多模态记忆虽在现实应用中扮演核心角色,却相对鲜有探索。相较于单模态场景,多模态记忆引入了额外挑战,包括异构输入整合、以人为中心的信息对齐,以及跨不同粒度的证据聚合。我们提出PyraVid,一种受认知科学中事件分割理论启发的分层多模态记忆框架。PyraVid将长视频组织成由粗到精的金字塔结构,实现结构化记忆访问与高效证据聚合。该框架进一步支持带剪枝的结构引导记忆扩展,允许检索具有强因果关联但语义相似度较低的相关事件,同时降低噪声。在多个长视频理解基准上的实验表明,PyraVid在不同数据集、模型规模及问题类型上均能持续提升性能,凸显了分层多模态记忆在长程推理中的有效性。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
186+阅读 · 2022年4月12日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
186+阅读 · 2022年4月12日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员