As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).


翻译:随着大语言模型从静态对话接口演变为自主通用智能体,有效的记忆机制对于保障长期一致性至关重要。然而,现有基准测试主要关注日常对话或任务导向型对话,未能涵盖智能体必须追踪动态目标的**"长期项目导向型"**交互。为弥补这一空白,我们提出了首个基于真实项目场景的基准测试**RealMem**。该基准包含跨越十一种场景的2000余段跨会话对话,采用自然用户查询进行评估。我们设计了一套融合项目基础构建、多智能体对话生成、记忆与日程管理的合成流程,以模拟记忆的动态演化过程。实验表明,现有记忆系统在处理现实项目固有的长期项目状态与动态上下文依赖方面面临显著挑战。我们的代码与数据集已发布于[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员