多智能体自主决策,特别是多智能体强化学习,是人工智能的一个新兴领域,其中自主智能体彼此互动,促进竞争和/或合作。这些人工智能智能体可用于解决现实世界问题,如增强现实、推荐系统、供应链协调、气候保护、自动驾驶汽车、体育、拦截博弈以及烹饪、教育、制造和机器人任务的实时指导。人工智能智能体的挑战包括有效扩展到多智能体、解决协调问题以及理解智能体行为。
本文旨在为现实世界决策问题开发和部署高效的多智能体人工智能算法。首先,多智能体方法可用于建模人机对齐问题,这是快速部署人工智能模型的一个主要挑战。当前的人工智能模型存在未对齐的挑战,例如ChatGPT在进行两个整数的四位数乘法等规划或推理任务时面临严重挑战。来自多智能体强化学习的即时协调等概念,有助于人类和自主智能体正确、明确地沟通每个计划步骤的目标,并明确推理人类在尝试塑造人工智能模型智能体行为时可能采用的策略。随着人工智能智能体规模的增加,此类通信的效率或鲁棒性通常不足,需要高效智能体行为的理论结果支撑。已经为人工智能智能体与具有社会智能的智能体群体之间的成功可靠合作提供了形式化保证,利用博弈论中的一致性和相容性概念来定义智能体行为。在上述场景中,人工智能智能体与具有社会智能的个体合作,这些个体是个人理性的,同时在一般和贝叶斯博弈中也能与群体其他成员可靠协调。人工智能智能体面临从先前交互中泛化的挑战,以帮助它们与此类群体中新伙伴合作。理论上表明,仅这些假设不足以选择出能实现与具有社会智能群体中任何成员进行零样本协调的人工智能智能体策略,这可以通过一个基于观察目标群体成员交互来学习成功合作策略的样本复杂度上界来解决。还推导了下界,以说明何时需要多智能体合作设置,这取决于群体的轨迹、状态空间和学习回合长度。在一致性和相容性假设下,这些下界被证明比将此合作问题简单归结为模仿学习的“朴素”归约更强。
本文随后展示了,人工智能智能体在与人目标对齐方面的此类合作,可以应用于增强现实和自动驾驶汽车等现实场景。多模态视觉语言人工智能智能体可以通过确定何时以及如何自主实时介入,以协作解决日常任务,从而主动协助人类。增强现实设备(无论是智能手机还是可穿戴设备)与分布式边缘计算用例的结合,通过为人工智能智能体引入以自我为中心的多模态(音频和视频)观察能力,可以显著改善用户体验,以解决程序性日常任务。这些增强现实能力帮助人工智能智能体观察和聆听用户行为,从而与人类用户的多模态能力相关联。当前的人工智能智能体,无论是大型语言模型还是多模态视觉语言模型,本质上大多是反应式的,即模型在等待人类用户的视觉语言提示之前无法采取行动。人工智能智能体的主动性通过提供更自主的辅助,帮助人类用户检测和纠正任务错误,在用户正确执行任务时给予鼓励,或仅仅是与用户进行对话——类似于人类教导或帮助另一个人。创建了一个名为YETI的多模态智能体,专注于研究识别实时情况下可能需要人工智能智能体主动干预的环境。训练的YETI智能体能够理解何时可以介入与人类用户的对话,以帮助他们纠正执行任务(如使用增强现实烹饪)时的错误。YETI基于可解释的结构相似性概念,在连续观察的视频帧上学习场景理解信号。它还学习对齐信号,以识别与用户任务动作对应的视频帧是否与其预期动作一致。人工智能智能体利用这些信号来决定何时应主动干预。将YETI在主动干预实例上的结果,与专家智能体指导用户完成程序性任务的HoloAssist多模态基准进行了比较。对于自主人工智能智能体的控制问题,特别是自动驾驶车辆控制等安全关键型应用,需要鲁棒的决策框架以确保在复杂动态环境中的安全导航。这需要采用如智能体模型预测控制等方法,以预测未来问题并相应地进行规划。引入了一个新颖框架,将模型预测控制与多模态视觉语言模型相结合,以增强自动驾驶车辆的导航和应对现实世界场景的能力,并能够执行细粒度动作。
鉴于人类及其他技术智能体相互互动、制定策略并执行任务的基础,多智能体人工智能可在现实应用中广泛应用。论文展示了多智能体强化学习可以帮助制定气候保护问题(如通过改善对世界两大雨林之一——印度尼西亚的森林砍伐热点地区的预测来制定缓解策略)的缓解策略。还分享了多智能体人工智能协作在供应链协调中的另一个应用建模,创建了一个能够感知季节性需求和冷链的模拟环境,并改进策略探索以最大化利润。创建了一种新的内在奖励信号,有助于减少计划供应链仓库库存的人工智能智能体之间不必要的交互。
这些现实世界应用需要理解人工智能智能体为何如此行事,这通过可解释人工智能智能体来解决,即回答“应推荐哪些可解释人工智能方法?”的问题,这取决于用户智能体的目标。解释人工智能模型的行为在不同背景下变得很重要,包括其训练和推理速度等因素,这些因素可决定最终用户偏爱某个人工智能模型而非另一个。多智能体强化学习已应用于可解释人工智能问题,通过使用多智能体推荐系统,为不同的人工智能模型推荐可解释人工智能输出,以服务于模型用户构建可信安全人工智能的目标。目标条件强化学习可用于建模人工智能用户根据其偏好学习可解释人工智能结果。关于学习可视化满足用户目标的语义表示的研究,为改进满足不同用户目标的可解释人工智能方法可视化提供了动机,并以多智能体强化学习表示作为目标。为表示多智能体强化学习目标,大部分控制问题可以抽象化,以便部署在拦截博弈等现实场景中,这可以简化为一个简单得多的博弈论问题。多智能体人工智能算法还有助于跨模型层剪枝人工智能模型参数,以实现高效学习。
与人类类似,大量人工智能智能体可能需要很长时间才能共同学习策略。随着智能体规模的增加,多智能体强化学习可能非常缓慢。为解决此问题,研究表明JAXMARL库利用JAX支持的硬件加速,在8个流行的多智能体强化学习环境中,其速度可比现有库快12,500倍。通过结合所提出的多智能体强化学习、模仿学习、模型预测控制和计算博弈论算法,可以有效提高人工智能智能体在解决现实世界和模拟环境问题方面的效能。