Multiagent reinforcement learning, as a prominent intelligent paradigm, enables collaborative decision-making within complex systems. However, existing approaches often rely on explicit action exchange between agents to evaluate action value functions, which is frequently impractical in real-world engineering environments due to communication constraints, latency, energy consumption, and reliability requirements. From an artificial intelligence perspective, this paper proposes an enhanced multiagent reinforcement learning framework that employs action estimation neural networks to infer agent behaviors. By integrating a lightweight action estimation module, each agent infers neighboring agents' behaviors using only locally observable information, enabling collaborative policy learning without explicit action sharing. This approach is fully compatible with standard TD3 algorithms and scalable to larger multiagent systems. At the engineering application level, this framework has been implemented and validated in dual-arm robotic manipulation tasks: two robotic arms collaboratively lift objects. Experimental results demonstrate that this approach significantly enhances the robustness and deployment feasibility of real-world robotic systems while reducing dependence on information infrastructure. Overall, this research advances the development of decentralized multiagent artificial intelligence systems while enabling AI to operate effectively in dynamic, information-constrained real-world environments.


翻译:多智能体强化学习作为一种重要的智能范式,能够在复杂系统中实现协同决策。然而,现有方法通常依赖智能体间的显式行为交换来评估行为价值函数,这在现实工程环境中常因通信限制、延迟、能耗及可靠性要求而难以实现。本文从人工智能视角出发,提出一种增强型多智能体强化学习框架,该框架采用行为估计神经网络来推断智能体行为。通过集成轻量级行为估计模块,每个智能体仅利用局部可观测信息即可推断邻近智能体的行为,从而实现无需显式行为共享的协同策略学习。该方法与标准TD3算法完全兼容,并可扩展至更大规模的多智能体系统。在工程应用层面,该框架已在双臂机器人操作任务中实现并验证:两个机械臂协同搬运物体。实验结果表明,该方法显著提升了现实机器人系统的鲁棒性与部署可行性,同时降低了对信息基础设施的依赖。总体而言,本研究推动了去中心化多智能体人工智能系统的发展,并使人工智能能够在动态且信息受限的现实环境中有效运行。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
专知会员服务
11+阅读 · 2025年10月21日
【ICML2025】通过在线世界模型规划的持续强化学习
专知会员服务
20+阅读 · 2025年7月18日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【NeurIPS2025】迈向开放世界的三维“物体性”学习
专知会员服务
11+阅读 · 2025年10月21日
【ICML2025】通过在线世界模型规划的持续强化学习
专知会员服务
20+阅读 · 2025年7月18日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
相关资讯
相关基金
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员