Grounding Synthetic Data Generation With Vision and Language Models - 专知论文

会员服务 ·

0

合成 · 合成数据 · 分割 · 数据集 · 数据增强 ·

Grounding Synthetic Data Generation With Vision and Language Models

翻译：基于视觉与语言模型的合成数据生成与评估

Ümit Mert Çağlar,Alptekin Temizel

Deep learning models benefit from increasing data diversity and volume, motivating synthetic data augmentation to improve existing datasets. However, existing evaluation metrics for synthetic data typically calculate latent feature similarity, which is difficult to interpret and does not always correlate with the contribution to downstream tasks. We propose a vision-language grounded framework for interpretable synthetic data augmentation and evaluation in remote sensing. Our approach combines generative models, semantic segmentation and image captioning with vision and language models. Based on this framework, we introduce ARAS400k: A large-scale Remote sensing dataset Augmented with Synthetic data for segmentation and captioning, containing 100k real images and 300k synthetic images, each paired with segmentation maps and descriptions. ARAS400k enables the automated evaluation of synthetic data by analyzing semantic composition, minimizing caption redundancy, and verifying cross-modal consistency between visual structures and language descriptions. Experimental results indicate that while models trained exclusively on synthetic data reach competitive performance levels, those trained with augmented data (a combination of real and synthetic images) consistently outperform real-data baselines. Consequently, this work establishes a scalable benchmark for remote sensing tasks, specifically in semantic segmentation and image captioning. The dataset is available at zenodo.org/records/18890661 and the code base at github.com/caglarmert/ARAS400k.

翻译：深度学习模型受益于数据多样性和数量的增加，这促使了通过合成数据增强来改进现有数据集。然而，现有的合成数据评估指标通常计算潜在特征相似度，这种方法难以解释，且并不总是与对下游任务的贡献相关。我们提出了一种基于视觉与语言的可解释合成数据增强与评估框架，应用于遥感领域。我们的方法将生成模型、语义分割和图像描述与视觉及语言模型相结合。基于此框架，我们引入了ARAS400k：一个用于分割与描述的大规模遥感数据集，通过合成数据增强，包含10万张真实图像和30万张合成图像，每张图像均配有分割图和描述。ARAS400k通过分析语义构成、最小化描述冗余以及验证视觉结构与语言描述之间的跨模态一致性，实现了合成数据的自动化评估。实验结果表明，虽然仅使用合成数据训练的模型达到了具有竞争力的性能水平，但使用增强数据（真实与合成图像组合）训练的模型始终优于仅使用真实数据的基线模型。因此，本研究为遥感任务，特别是语义分割和图像描述，建立了一个可扩展的基准。数据集发布于zenodo.org/records/18890661，代码库位于github.com/caglarmert/ARAS400k。

0

相关内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Arxiv

0+阅读 · 2月14日

Towards Active Synthetic Data Generation for Finetuning Language Models

Arxiv

0+阅读 · 2月9日

A Data-driven Typology of Vision Models from Integrated Representational Metrics

Arxiv

0+阅读 · 2月6日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

47+阅读 · 2025年2月9日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

【Aalto博士论文】深度生成神经网络模型: 捕获视觉数据中复杂模式，92页pdf

专知会员服务

26+阅读 · 2021年1月18日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Arxiv

0+阅读 · 3月7日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Arxiv

0+阅读 · 2月14日

Towards Active Synthetic Data Generation for Finetuning Language Models

Arxiv

0+阅读 · 2月9日

A Data-driven Typology of Vision Models from Integrated Representational Metrics

Arxiv

0+阅读 · 2月6日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

相关基金

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员