无需模型微调的多智能体语言系统演化潜在策略学习 (Learning Evolving Latent Strategies for Multi-Agent Language Systems without Model Fine-Tuning) - 专知论文

会员服务 ·

0

潜在 · 系统 · 智能体 · 微调 · 系统演化 ·

Learning Evolving Latent Strategies for Multi-Agent Language Systems without Model Fine-Tuning

翻译：无需模型微调的多智能体语言系统演化潜在策略学习

from arxiv, 17 pages, 5 figures. Code available at https://github.com/wltang-dev/Latent-Strategy-RL-Agent

This study proposes a multi-agent language framework that enables continual strategy evolution without fine-tuning the language model's parameters. The core idea is to liberate the latent vectors of abstract concepts from traditional static semantic representations, allowing them to be continuously updated through environmental interaction and reinforcement feedback. We construct a dual-loop architecture: the behavior loop adjusts action preferences based on environmental rewards, while the language loop updates the external latent vectors by reflecting on the semantic embeddings of generated text. Together, these mechanisms allow agents to develop stable and disentangled strategic styles over long-horizon multi-round interactions. Experiments show that agents' latent spaces exhibit clear convergence trajectories under reflection-driven updates, along with structured shifts at critical moments. Moreover, the system demonstrates an emergent ability to implicitly infer and continually adapt to emotional agents, even without shared rewards. These results indicate that, without modifying model parameters, an external latent space can provide language agents with a low-cost, scalable, and interpretable form of abstract strategic representation.

翻译：本研究提出一种多智能体语言框架，能够在无需微调语言模型参数的情况下实现策略的持续演化。其核心思想是将抽象概念的潜在向量从传统的静态语义表征中解放出来，使其能够通过环境交互与强化反馈不断更新。我们构建了双循环架构：行为循环根据环境奖励调整行动偏好，而语言循环则通过反思生成文本的语义嵌入来更新外部潜在向量。这些机制共同作用，使得智能体能够在长期多轮交互中形成稳定且解耦的策略风格。实验表明，在反思驱动的更新机制下，智能体的潜在空间展现出清晰的收敛轨迹，并在关键时刻呈现结构化偏移。此外，该系统展现出一种涌现能力，即使在没有共享奖励的情况下，也能隐式推断并持续适应情感化智能体。这些结果表明，在不修改模型参数的前提下，外部潜在空间能够为语言智能体提供一种低成本、可扩展且可解释的抽象策略表征形式。

0

相关内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

32+阅读 · 2月2日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

55+阅读 · 2025年9月3日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

51+阅读 · 2024年11月23日

《多智能体强化学习策略优化算法设计》226页

《多智能体强化学习策略优化算法设计》226页

专知会员服务

63+阅读 · 2024年6月9日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

89+阅读 · 2024年5月5日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

CARL: Focusing Agentic Reinforcement Learning on Critical Actions

Arxiv

0+阅读 · 2月5日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 1月29日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

Arxiv

0+阅读 · 1月13日

Multi-Agent Cooperative Learning for Robust Vision-Language Alignment under OOD Concepts

Arxiv

0+阅读 · 1月11日

Multiagent Reinforcement Learning with Neighbor Action Estimation

Arxiv

0+阅读 · 1月8日

Dynamic Strategy Adaptation in Multi-Agent Environments with Large Language Models

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

11+阅读 · 2月13日

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

32+阅读 · 2月2日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

55+阅读 · 2025年9月3日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

51+阅读 · 2024年11月23日

《多智能体强化学习策略优化算法设计》226页

《多智能体强化学习策略优化算法设计》226页

专知会员服务

63+阅读 · 2024年6月9日

多智能体博弈学习研究进展

多智能体博弈学习研究进展

专知会员服务

89+阅读 · 2024年5月5日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

CARL: Focusing Agentic Reinforcement Learning on Critical Actions

Arxiv

0+阅读 · 2月5日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs

Arxiv

0+阅读 · 1月29日

Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic

Arxiv

0+阅读 · 1月29日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

Arxiv

0+阅读 · 1月13日

Multi-Agent Cooperative Learning for Robust Vision-Language Alignment under OOD Concepts

Arxiv

0+阅读 · 1月11日

Multiagent Reinforcement Learning with Neighbor Action Estimation

Arxiv

0+阅读 · 1月8日

Dynamic Strategy Adaptation in Multi-Agent Environments with Large Language Models

Arxiv

0+阅读 · 2025年12月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员