EMemBench：面向VLM智能体的交互式情景记忆基准测试 (EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents) - 专知论文

会员服务 ·

0

交互 · 情景 · 情景记忆 · 基准 · 基准测试 ·

EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents

翻译：EMemBench：面向VLM智能体的交互式情景记忆基准测试

Xinze Li,Ziyue Zhu,Siyuan Liu,Yubo Ma,Yuhang Zang,Yixin Cao,Aixin Sun

from arxiv, 25 pages

We introduce EMemBench, a programmatic benchmark for evaluating long-term memory of agents through interactive games. Rather than using a fixed set of questions, EMemBench generates questions from each agent's own trajectory, covering both text and visual game environments. Each template computes verifiable ground truth from underlying game signals, with controlled answerability and balanced coverage over memory skills: single/multi-hop recall, induction, temporal, spatial, logical, and adversarial. We evaluate memory agents with strong LMs/VLMs as backbones, using in-context prompting as baselines. Across 15 text games and multiple visual seeds, results are far from saturated: induction and spatial reasoning are persistent bottlenecks, especially in visual setting. Persistent memory yields clear gains for open backbones on text games, but improvements are less consistent for VLM agents, suggesting that visually grounded episodic memory remains an open challenge. A human study further confirms the difficulty of EMemBench.

翻译：本文提出EMemBench，一个通过交互式游戏评估智能体长期记忆能力的程序化基准测试框架。与使用固定问题集不同，EMemBench基于每个智能体自身的交互轨迹动态生成问题，涵盖文本与视觉游戏环境。每个问题模板均从底层游戏信号中计算可验证的真实答案，具备可控的可回答性，并平衡覆盖多种记忆技能：单跳/多跳回忆、归纳推理、时序推理、空间推理、逻辑推理及对抗性记忆。我们以性能强大的语言模型/视觉语言模型为骨干构建记忆智能体，采用上下文提示方法作为基线进行评测。在15个文本游戏及多个视觉场景种子的测试中，结果远未饱和：归纳推理与空间推理仍是持续存在的性能瓶颈，在视觉环境中尤为显著。持久性记忆机制为文本游戏中的开源骨干模型带来明显增益，但对VLM智能体的改进效果较不稳定，这表明基于视觉的情景记忆仍是亟待解决的开放挑战。人工实验进一步证实了EMemBench任务的难度。

0

相关内容

下半场思考：基础智能体记忆机制

下半场思考：基础智能体记忆机制

专知会员服务

18+阅读 · 2月9日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

35+阅读 · 2025年12月16日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

机器之心

23+阅读 · 2018年10月23日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks

Arxiv

0+阅读 · 2月18日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月10日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月9日

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Arxiv

0+阅读 · 2月3日

EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models

Arxiv

0+阅读 · 2月3日

ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents

Arxiv

0+阅读 · 2月2日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

MemWeaver: Weaving Hybrid Memories for Traceable Long-Horizon Agentic Reasoning

Arxiv

0+阅读 · 1月26日

Memp: Exploring Agent Procedural Memory

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

下半场思考：基础智能体记忆机制

下半场思考：基础智能体记忆机制

专知会员服务

18+阅读 · 2月9日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

35+阅读 · 2025年12月16日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

机器之心

23+阅读 · 2018年10月23日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks

Arxiv

0+阅读 · 2月18日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Arxiv

0+阅读 · 2月10日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月9日

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Arxiv

0+阅读 · 2月3日

EverMemBench: Benchmarking Long-Term Interactive Memory in Large Language Models

Arxiv

0+阅读 · 2月3日

ProcMEM: Learning Reusable Procedural Memory from Experience via Non-Parametric PPO for LLM Agents

Arxiv

0+阅读 · 2月2日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

MemWeaver: Weaving Hybrid Memories for Traceable Long-Horizon Agentic Reasoning

Arxiv

0+阅读 · 1月26日

Memp: Exploring Agent Procedural Memory

Arxiv

0+阅读 · 1月21日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员