This study proposes a multi-agent language framework that enables continual strategy evolution without fine-tuning the language model's parameters. The core idea is to liberate the latent vectors of abstract concepts from traditional static semantic representations, allowing them to be continuously updated through environmental interaction and reinforcement feedback. We construct a dual-loop architecture: the behavior loop adjusts action preferences based on environmental rewards, while the language loop updates the external latent vectors by reflecting on the semantic embeddings of generated text. Together, these mechanisms allow agents to develop stable and disentangled strategic styles over long-horizon multi-round interactions. Experiments show that agents' latent spaces exhibit clear convergence trajectories under reflection-driven updates, along with structured shifts at critical moments. Moreover, the system demonstrates an emergent ability to implicitly infer and continually adapt to emotional agents, even without shared rewards. These results indicate that, without modifying model parameters, an external latent space can provide language agents with a low-cost, scalable, and interpretable form of abstract strategic representation.


翻译:本研究提出一种多智能体语言框架,能够在无需微调语言模型参数的情况下实现策略的持续演化。其核心思想是将抽象概念的潜在向量从传统的静态语义表征中解放出来,使其能够通过环境交互与强化反馈不断更新。我们构建了双循环架构:行为循环根据环境奖励调整行动偏好,而语言循环则通过反思生成文本的语义嵌入来更新外部潜在向量。这些机制共同作用,使得智能体能够在长期多轮交互中形成稳定且解耦的策略风格。实验表明,在反思驱动的更新机制下,智能体的潜在空间展现出清晰的收敛轨迹,并在关键时刻呈现结构化偏移。此外,该系统展现出一种涌现能力,即使在没有共享奖励的情况下,也能隐式推断并持续适应情感化智能体。这些结果表明,在不修改模型参数的前提下,外部潜在空间能够为语言智能体提供一种低成本、可扩展且可解释的抽象策略表征形式。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
32+阅读 · 2月2日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
63+阅读 · 2024年6月9日
多智能体博弈学习研究进展
专知会员服务
89+阅读 · 2024年5月5日
「基于通信的多智能体强化学习」 进展综述
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员