Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.


翻译:长期智能体记忆日益呈现多模态特性,然而现有评估很少检验智能体是否保存了后续推理所需的视觉证据。既往工作中,许多基于视觉的问题仅通过描述文本或语言痕迹即可回答,无需保留细粒度视觉证据即可推断答案。同时,需要基于视觉状态变化进行推理的复杂案例仍大量缺失。为此,我们提出MemEye框架,从两个维度评估记忆能力:其一衡量决定性视觉证据的粒度(从场景级到像素级证据),其二衡量检索证据必须被使用的方式(从单证据到演化式综合)。在该框架下,我们构建了涵盖8个生活场景任务的新基准,并设计了基于消融实验的验证门控机制,用于评估可回答性、捷径抗性、视觉必要性与推理结构。通过评估4种VLM主干上的13种记忆方法,我们发现当前架构仍难以保留细粒度视觉细节并推理随时间变化的状态。研究表明,长时多模态记忆依赖于证据路由、时序追踪与细节提取三大能力。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
AI 智能体系统:体系架构、应用场景及评估范式
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员