HaluMem：评估智能体记忆系统中的幻觉现象 (HaluMem: Evaluating Hallucinations in Memory Systems of Agents) - 专知论文

会员服务 ·

0

系统 · 记忆系统 · 操作 · 交互 · 问答 ·

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

翻译：HaluMem：评估智能体记忆系统中的幻觉现象

Ding Chen,Simin Niu,Kehang Li,Peng Liu,Xiangping Zheng,Bo Tang,Xinchi Li,Feiyu Xiong,Zhiyu Li

Memory systems are key components that enable AI systems such as LLMs and AI agents to achieve long-term learning and sustained interaction. However, during memory storage and retrieval, these systems frequently exhibit memory hallucinations, including fabrication, errors, conflicts, and omissions. Existing evaluations of memory hallucinations are primarily end-to-end question answering, which makes it difficult to localize the operational stage within the memory system where hallucinations arise. To address this, we introduce the Hallucination in Memory Benchmark (HaluMem), the first operation level hallucination evaluation benchmark tailored to memory systems. HaluMem defines three evaluation tasks (memory extraction, memory updating, and memory question answering) to comprehensively reveal hallucination behaviors across different operational stages of interaction. To support evaluation, we construct user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and HaluMem-Long. Both include about 15k memory points and 3.5k multi-type questions. The average dialogue length per user reaches 1.5k and 2.6k turns, with context lengths exceeding 1M tokens, enabling evaluation of hallucinations across different context scales and task complexities. Empirical studies based on HaluMem show that existing memory systems tend to generate and accumulate hallucinations during the extraction and updating stages, which subsequently propagate errors to the question answering stage. Future research should focus on developing interpretable and constrained memory operation mechanisms that systematically suppress hallucinations and improve memory reliability.

翻译：记忆系统是实现LLM与AI智能体长期学习与持续交互的关键组件。然而在记忆存储与检索过程中，这些系统常出现记忆幻觉现象，包括虚构、错误、冲突与遗漏。现有记忆幻觉评估主要采用端到端问答形式，难以定位幻觉在记忆系统内部产生的具体操作阶段。为此，我们提出首个面向记忆系统的操作级幻觉评估基准HaluMem，定义了记忆提取、记忆更新与记忆问答三项评估任务，以全面揭示交互过程中不同操作阶段的幻觉行为。为支持评估，我们构建了以用户为中心的多轮人机交互数据集HaluMem-Medium与HaluMem-Long，两者均包含约1.5万个记忆点与3.5千道多类型问题。单用户平均对话轮次分别达到1.5千轮与2.6千轮，上下文长度超过100万token，可评估不同上下文规模与任务复杂度下的幻觉现象。基于HaluMem的实证研究表明，现有记忆系统在提取与更新阶段易产生并累积幻觉，进而将误差传播至问答阶段。未来研究应致力于开发可解释且受约束的记忆操作机制，以系统性抑制幻觉并提升记忆可靠性。

0

相关内容

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

专知会员服务

29+阅读 · 2月6日

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

专知会员服务

26+阅读 · 1月4日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

36+阅读 · 2025年12月16日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

专知会员服务

20+阅读 · 2024年9月27日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【混合智能】有关军事混合智能的思考

【混合智能】有关军事混合智能的思考

产业智能官

14+阅读 · 2020年5月17日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

专家报告 | 类脑智能与类脑计算

专家报告 | 类脑智能与类脑计算

中国图象图形学报

19+阅读 · 2019年10月9日

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

AINLP

15+阅读 · 2019年2月2日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

顿悟体验的心理机制和动态神经基础

国家自然科学基金

0+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Arxiv

0+阅读 · 2月2日

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Arxiv

0+阅读 · 1月30日

FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory

Arxiv

0+阅读 · 1月26日

Memp: Exploring Agent Procedural Memory

Arxiv

0+阅读 · 1月21日

Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

Arxiv

0+阅读 · 1月20日

ES-Mem: Event Segmentation-Based Memory for Long-Term Dialogue Agents

Arxiv

0+阅读 · 1月13日

Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory

Arxiv

0+阅读 · 1月12日

CloneMem: Benchmarking Long-Term Memory for AI Clones

Arxiv

0+阅读 · 1月11日

EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

基于图结构的智能体记忆机制：分类体系、关键技术与应用综述

专知会员服务

29+阅读 · 2月6日

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

人工智能遇见大脑：从认知神经科学到自主智能体的记忆系统统一综述

专知会员服务

26+阅读 · 1月4日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

36+阅读 · 2025年12月16日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

【NeurIPS 2024】HaloScope：利用未标记的大型语言模型生成进行幻觉检测

专知会员服务

20+阅读 · 2024年9月27日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《可变规模无人机蜂群的任务分配研究》最新90页

军用无人机系统发展趋势之印度发展

《缩小陆军反小型无人机系统差距》最新79页

拉斐尔公司将于2026年新加坡航展展示集成的空中、太空、情报与防空能力

相关资讯

【混合智能】有关军事混合智能的思考

【混合智能】有关军事混合智能的思考

产业智能官

14+阅读 · 2020年5月17日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

专家报告 | 类脑智能与类脑计算

专家报告 | 类脑智能与类脑计算

中国图象图形学报

19+阅读 · 2019年10月9日

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

AINLP

15+阅读 · 2019年2月2日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

相关论文

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents

Arxiv

0+阅读 · 2月2日

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Arxiv

0+阅读 · 1月30日

FadeMem: Biologically-Inspired Forgetting for Efficient Agent Memory

Arxiv

0+阅读 · 1月26日

Memp: Exploring Agent Procedural Memory

Arxiv

0+阅读 · 1月21日

Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents

Arxiv

0+阅读 · 1月20日

ES-Mem: Event Segmentation-Based Memory for Long-Term Dialogue Agents

Arxiv

0+阅读 · 1月13日

Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory

Arxiv

0+阅读 · 1月12日

CloneMem: Benchmarking Long-Term Memory for AI Clones

Arxiv

0+阅读 · 1月11日

EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning

Arxiv

0+阅读 · 1月5日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

顿悟体验的心理机制和动态神经基础

国家自然科学基金

0+阅读 · 2015年12月31日

临界态对生物神经网络学习、记忆以及模式识别能力的影响

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员