Vision-language models are increasingly employed as multimodal conversational agents (MCAs) for diverse conversational tasks. Recently, reinforcement learning (RL) has been widely explored for adapting MCAs to various human-AI interaction scenarios. Despite showing great enhancement in generalization performance, fine-tuning MCAs via RL still faces challenges in handling the extremely large text token space. To address this, we learn a compact latent action space for RL fine-tuning instead. Specifically, we adopt the learning from observation mechanism to construct the codebook for the latent action space, where future observations are leveraged to estimate current latent actions that could further be used to reconstruct future observations. However, the scarcity of paired image-text data hinders learning a codebook with sufficient coverage. Thus, we leverage both paired image-text data and text-only data to construct the latent action space, using a cross-modal projector for transforming text embeddings into image-text embeddings. We initialize the cross-modal projector on paired image-text data, and further train it on massive text-only data with a novel cycle consistency loss to enhance its robustness. We show that our latent action based method outperforms competitive baselines on two conversation tasks across various RL algorithms.


翻译:视觉语言模型正日益广泛地作为多模态对话智能体应用于多样化的对话任务。近期,强化学习被广泛探索用于使多模态对话智能体适应各种人机交互场景。尽管在泛化性能上展现出显著提升,通过强化学习对多模态对话智能体进行微调在处理极大文本标记空间方面仍面临挑战。为解决此问题,我们转而学习一个紧凑的隐式动作空间用于强化学习微调。具体而言,我们采用从观察中学习的机制来构建隐式动作空间的码本,其中利用未来观察来估计当前的隐式动作,这些动作可进一步用于重建未来观察。然而,配对图文数据的稀缺性阻碍了学习具有充分覆盖度的码本。因此,我们同时利用配对图文数据与纯文本数据来构建隐式动作空间,使用一个跨模态投影器将文本嵌入转换为图文嵌入。我们在配对图文数据上初始化跨模态投影器,并进一步在大量纯文本数据上使用新颖的循环一致性损失进行训练,以增强其鲁棒性。实验表明,我们基于隐式动作的方法在两种对话任务上,相较于多种强化学习算法的竞争基线,均取得了更优的性能。

0
下载
关闭预览

相关内容

面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
多智能体强化学习控制与决策研究综述
专知会员服务
46+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员