Recent studies show that text-to-image models often fail to generate geographically representative images, raising concerns about the representativeness of their training data and motivating the question: which parts of the world do these training examples come from? We geographically profile large-scale multimodal datasets by mapping image-caption pairs to countries based on location information extracted from captions using LLMs. Studying English captions from three widely used datasets (Re-LAION, DataComp1B, and Conceptual Captions) across $20$ common entities (e.g., house, flag), we find that the United States, the United Kingdom, and Canada account for $48.0\%$ of samples, while South American and African countries are severely under-represented with only $1.8\%$ and $3.8\%$ of images, respectively. We observe a strong correlation between a country's GDP and its representation in the data ($ρ= 0.82$). Examining non-English subsets for $4$ languages from the Re-LAION dataset, we find that representation skews heavily toward countries where these languages are predominantly spoken. Additionally, we find that higher representation does not necessarily translate to greater visual or semantic diversity. Finally, analyzing country-specific images generated by Stable Diffusion v1.3 trained on Re-LAION, we show that while generations appear realistic, they are severely limited in their coverage compared to real-world images.


翻译:近期研究表明,文本到图像模型往往无法生成具有地理代表性的图像,这引发了对其训练数据代表性的担忧,并促使我们思考:这些训练样本究竟来自世界哪些地区?我们通过基于大语言模型从字幕中提取位置信息,将图像-字幕对映射至相应国家,从而对大规模多模态数据集进行地理画像分析。通过研究三个广泛使用的数据集(Re-LAION、DataComp1B和Conceptual Captions)中涉及20个常见实体(如房屋、旗帜)的英文字幕,我们发现美国、英国和加拿大占据了48.0%的样本,而南美洲和非洲国家则严重缺乏代表性,图像占比分别仅为1.8%和3.8%。我们观察到国家GDP与其在数据中的代表性存在强相关性(ρ=0.82)。通过考察Re-LAION数据集中4种语言的非英语子集,我们发现数据代表性严重偏向这些语言的主要使用国。此外,研究还表明更高的代表性并不必然转化为更大的视觉或语义多样性。最后,通过分析基于Re-LAION训练的Stable Diffusion v1.3生成的国别特定图像,我们证明虽然生成图像看起来逼真,但与真实世界图像相比,其覆盖范围存在严重局限性。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
北京思腾合力科技有限公司
35+阅读 · 2017年11月27日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员