In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.


翻译:在本工作中,我们旨在开发有效的数据合成技术,自主合成多模态训练数据,以增强多模态大语言模型解决复杂现实任务的能力。为此,我们提出了集体对抗数据合成方法——一种新颖且通用的方法,用于为多模态大语言模型合成高质量、多样且富有挑战性的多模态数据。其核心思想是利用集体智能确保生成数据的高质量与多样性,同时探索对抗学习以合成具有挑战性的样本,从而有效驱动模型改进。具体而言,CADS包含两个循环阶段:集体对抗数据生成与集体对抗数据评判。CAD-Generate利用集体知识联合生成新颖多样的多模态数据,而CAD-Judge则协同评估合成数据的质量。此外,CADS引入了对抗上下文优化机制,通过优化生成上下文以促进高价值、高难度数据的生成。基于CADS,我们构建了MMSynthetic-20K数据集并训练了R1-SyntheticVL模型,该模型在多个基准测试中展现出卓越性能。

0
下载
关闭预览

相关内容

《使用生成式大语言模型进行多语言事件提取》最新85页
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
ICLR 2025(投稿) | 多模态大语言模型相关论文整理
专知会员服务
28+阅读 · 2024年10月29日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《使用生成式大语言模型进行多语言事件提取》最新85页
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
ICLR 2025(投稿) | 多模态大语言模型相关论文整理
专知会员服务
28+阅读 · 2024年10月29日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员