Self-evolving large language model (LLM) agents continually improve by accumulating and reusing past experience, yet it remains unclear whether they faithfully rely on that experience to guide their behavior. We present the first systematic investigation of experience faithfulness, the causal dependence of an agent's decisions on the experience it is given, in self-evolving LLM agents. Using controlled causal interventions on both raw and condensed forms of experience, we comprehensively evaluate four representative frameworks across 10 LLM backbones and 9 environments. Our analysis uncovers a striking asymmetry: while agents consistently depend on raw experience, they often disregard or misinterpret condensed experience, even when it is the only experience provided. This gap persists across single- and multi-agent configurations and across backbone scales. We trace its underlying causes to three factors: the semantic limitations of condensed content, internal processing biases that suppress experience, and task regimes where pretrained priors already suffice. These findings challenge prevailing assumptions about self-evolving methods and underscore the need for more faithful and reliable approaches to experience integration.


翻译:自我进化的大型语言模型(LLM)智能体通过积累和复用过往经验持续改进,但其行为是否真正依赖这些经验仍不明确。我们首次对自我进化LLM智能体中的经验忠实性——即智能体决策对其所获经验的因果依赖性——进行了系统性研究。通过对原始经验与压缩经验实施受控因果干预,我们在10种LLM骨干模型和9种任务环境中全面评估了四种代表性框架。分析揭示了一个显著的不对称现象:虽然智能体始终依赖原始经验,却常常忽视或曲解压缩经验,即使这是其获得的唯一经验。这种差距在单智能体与多智能体配置中均持续存在,且不受骨干模型规模影响。我们将其根本原因归结为三个因素:压缩内容的语义局限性、抑制经验内容的内在处理偏差,以及预训练先验知识已足以应对的任务场景。这些发现挑战了当前关于自我进化方法的普遍假设,并强调了开发更忠实可靠的经验整合方法的必要性。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
基于大语言模型智能体的社会认知模拟
专知会员服务
13+阅读 · 2月22日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
大模型如何迭代?北大等《大型语言模型自我进化》综述
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
基于大语言模型智能体的社会认知模拟
专知会员服务
13+阅读 · 2月22日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
大模型如何迭代?北大等《大型语言模型自我进化》综述
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员