MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks - 专知论文

会员服务 ·

0

基准 · 智能体 · 智能体记忆 · 基准测试 · 准则 ·

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks

翻译：MemoryArena：面向多会话互依赖智能体任务中的智能体记忆基准测试

Zexue He,Yu Wang,Churan Zhi,Yuanzhe Hu,Tzu-Ping Chen,Lang Yin,Ze Chen,Tong Arthur Wu,Siru Ouyang,Zihan Wang,Jiaxin Pei,Julian McAuley,Yejin Choi,Alex Pentland

Existing evaluations of agents with memory typically assess memorization and action in isolation. One class of benchmarks evaluates memorization by testing recall of past conversations or text but fails to capture how memory is used to guide future decisions. Another class focuses on agents acting in single-session tasks without the need for long-term memory. However, in realistic settings, memorization and action are tightly coupled: agents acquire memory while interacting with the environment, and subsequently rely on that memory to solve future tasks. To capture this setting, we introduce MemoryArena, a unified evaluation gym for benchmarking agent memory in multi-session Memory-Agent-Environment loops. The benchmark consists of human-crafted agentic tasks with explicitly interdependent subtasks, where agents must learn from earlier actions and feedback by distilling experiences into memory, and subsequently use that memory to guide later actions to solve the overall task. MemoryArena supports evaluation across web navigation, preference-constrained planning, progressive information search, and sequential formal reasoning, and reveals that agents with near-saturated performance on existing long-context memory benchmarks like LoCoMo perform poorly in our agentic setting, exposing a gap in current evaluations for agents with memory.

翻译：现有对具备记忆能力的智能体的评估通常孤立地测试记忆与行动能力。一类基准通过测试对过往对话或文本的回忆来评估记忆能力，但未能捕捉记忆如何用于指导未来决策。另一类基准则关注智能体在单会话任务中的行为，无需长期记忆参与。然而，在实际场景中，记忆与行动是紧密耦合的：智能体在与环境交互过程中获取记忆，随后依赖这些记忆解决未来任务。为刻画这一场景，我们提出了MemoryArena——一个用于在多会话“记忆-智能体-环境”循环中评估智能体记忆的统一测试平台。该基准包含人工设计的具有显式互依赖子任务的智能体任务，要求智能体通过将经验提炼为记忆来从先前的行动与反馈中学习，并随后利用该记忆指导后续行动以完成整体任务。MemoryArena支持在网页导航、偏好约束规划、渐进式信息检索及序列形式推理等多个维度进行评估，并揭示出在现有长上下文记忆基准（如LoCoMo）上性能接近饱和的智能体，在我们的智能体任务场景中表现不佳，这暴露了当前对具备记忆能力的智能体的评估存在缺陷。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

18+阅读 · 3月14日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

22+阅读 · 2月26日

MMA：多模态记忆智能体

MMA：多模态记忆智能体

专知会员服务

11+阅读 · 2月19日

下半场思考：基础智能体记忆机制

下半场思考：基础智能体记忆机制

专知会员服务

22+阅读 · 2月9日

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

专知会员服务

32+阅读 · 2月6日

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

专知会员服务

27+阅读 · 1月4日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

37+阅读 · 2025年12月16日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

一文详解深度学习在命名实体识别(NER)中的应用

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

脑衰老过程中长链非编码RNA对学习记忆相关基因的调控功能及机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Arxiv

0+阅读 · 3月11日

$τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Arxiv

0+阅读 · 3月4日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Arxiv

0+阅读 · 2月25日

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Arxiv

1+阅读 · 2月22日

CAST: Character-and-Scene Episodic Memory for Agents

Arxiv

0+阅读 · 2月16日

Choosing How to Remember: Adaptive Memory Structures for LLM Agents

Arxiv

0+阅读 · 2月15日

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Arxiv

0+阅读 · 2月11日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

智能体记忆

最新内容

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

3+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

4+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

5+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

11+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

9+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

12+阅读 · 7月26日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

18+阅读 · 3月14日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

22+阅读 · 2月26日

MMA：多模态记忆智能体

MMA：多模态记忆智能体

专知会员服务

11+阅读 · 2月19日

下半场思考：基础智能体记忆机制

下半场思考：基础智能体记忆机制

专知会员服务

22+阅读 · 2月9日

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

专知会员服务

32+阅读 · 2月6日

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

专知会员服务

27+阅读 · 1月4日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

37+阅读 · 2025年12月16日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《异构人类团队的协作决策过程混合建模研究》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

面向国防作战的最佳自主与蜂群无人机技术

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

相关资讯

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

一文详解深度学习在命名实体识别(NER)中的应用

一文详解深度学习在命名实体识别(NER)中的应用

AINLP

24+阅读 · 2018年10月23日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Arxiv

0+阅读 · 3月11日

$τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Arxiv

0+阅读 · 3月4日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation

Arxiv

0+阅读 · 2月25日

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Arxiv

1+阅读 · 2月22日

CAST: Character-and-Scene Episodic Memory for Agents

Arxiv

0+阅读 · 2月16日

Choosing How to Remember: Adaptive Memory Structures for LLM Agents

Arxiv

0+阅读 · 2月15日

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Arxiv

0+阅读 · 2月11日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Arxiv

0+阅读 · 2月3日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

脑衰老过程中长链非编码RNA对学习记忆相关基因的调控功能及机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员