Existing evaluations of agents with memory typically assess memorization and action in isolation. One class of benchmarks evaluates memorization by testing recall of past conversations or text but fails to capture how memory is used to guide future decisions. Another class focuses on agents acting in single-session tasks without the need for long-term memory. However, in realistic settings, memorization and action are tightly coupled: agents acquire memory while interacting with the environment, and subsequently rely on that memory to solve future tasks. To capture this setting, we introduce MemoryArena, a unified evaluation gym for benchmarking agent memory in multi-session Memory-Agent-Environment loops. The benchmark consists of human-crafted agentic tasks with explicitly interdependent subtasks, where agents must learn from earlier actions and feedback by distilling experiences into memory, and subsequently use that memory to guide later actions to solve the overall task. MemoryArena supports evaluation across web navigation, preference-constrained planning, progressive information search, and sequential formal reasoning, and reveals that agents with near-saturated performance on existing long-context memory benchmarks like LoCoMo perform poorly in our agentic setting, exposing a gap in current evaluations for agents with memory.


翻译:现有对具备记忆能力的智能体的评估通常孤立地测试记忆与行动能力。一类基准通过测试对过往对话或文本的回忆来评估记忆能力,但未能捕捉记忆如何用于指导未来决策。另一类基准则关注智能体在单会话任务中的行为,无需长期记忆参与。然而,在实际场景中,记忆与行动是紧密耦合的:智能体在与环境交互过程中获取记忆,随后依赖这些记忆解决未来任务。为刻画这一场景,我们提出了MemoryArena——一个用于在多会话“记忆-智能体-环境”循环中评估智能体记忆的统一测试平台。该基准包含人工设计的具有显式互依赖子任务的智能体任务,要求智能体通过将经验提炼为记忆来从先前的行动与反馈中学习,并随后利用该记忆指导后续行动以完成整体任务。MemoryArena支持在网页导航、偏好约束规划、渐进式信息检索及序列形式推理等多个维度进行评估,并揭示出在现有长上下文记忆基准(如LoCoMo)上性能接近饱和的智能体,在我们的智能体任务场景中表现不佳,这暴露了当前对具备记忆能力的智能体的评估存在缺陷。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
9+阅读 · 2月19日
下半场思考:基础智能体记忆机制
专知会员服务
18+阅读 · 2月9日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
35+阅读 · 2025年12月16日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月21日
Arxiv
0+阅读 · 1月13日
VIP会员
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员