As Text-to-Image (TTI) diffusion models become increasingly influential in content creation, growing attention is being directed toward their societal and cultural implications. While prior research has primarily examined demographic and cultural biases, the ability of these models to accurately represent historical contexts remains largely underexplored. To address this gap, we introduce a benchmark for evaluating how TTI models depict historical contexts. The benchmark combines HistVis, a dataset of 30,000 synthetic images generated by three state-of-the-art diffusion models from carefully designed prompts covering universal human activities across multiple historical periods, with a reproducible evaluation protocol. We evaluate generated imagery across three key aspects: (1) Implicit Stylistic Associations: examining default visual styles associated with specific eras; (2) Historical Consistency: identifying anachronisms such as modern artifacts in pre-modern contexts; and (3) Demographic Representation: comparing generated racial and gender distributions against historically plausible baselines. Our findings reveal systematic inaccuracies in historically themed generated imagery, as TTI models frequently stereotype past eras by incorporating unstated stylistic cues, introduce anachronisms, and fail to reflect plausible demographic patterns. By providing a reproducible benchmark for historical representation in generated imagery, this work provides an initial step toward building more historically accurate TTI models.


翻译:随着文本到图像(TTI)扩散模型在内容创作中的影响力日益增强,其社会与文化影响正受到越来越多的关注。尽管先前研究主要考察了人口统计与文化偏见,但这些模型准确表征历史语境的能力在很大程度上仍未得到充分探索。为填补这一空白,我们引入了一个评估TTI模型如何描绘历史语境的基准。该基准结合了HistVis——一个包含30,000张合成图像的数据集,这些图像由三种先进的扩散模型根据精心设计的提示生成,涵盖了多个历史时期中普遍的人类活动——以及一套可复现的评估方案。我们从三个关键方面评估生成的图像:(1)隐式风格关联:考察与特定时代相关联的默认视觉风格;(2)历史一致性:识别时代错置现象,例如前现代语境中出现现代物品;(3)人口表征:将生成的种族与性别分布与历史上合理的基线进行比较。我们的研究结果表明,在历史主题的生成图像中存在系统性的不准确之处,因为TTI模型经常通过融入未言明的风格线索来刻板化过去时代,引入时代错置,且未能反映合理的人口分布模式。通过为生成图像中的历史表征提供一个可复现的基准,这项工作为构建更具历史准确性的TTI模型迈出了第一步。

0
下载
关闭预览

相关内容

IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
文本到图像合成:十年回顾
专知会员服务
31+阅读 · 2024年11月26日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
综述:基于GAN的图像翻译模型盘点
GAN生成式对抗网络
21+阅读 · 2019年9月2日
【综述】计算机视觉简介:历史、现状和发展趋势【可下载】
机器学习算法与Python学习
15+阅读 · 2018年9月21日
计算机视觉简介:历史、现状和发展趋势
北京思腾合力科技有限公司
10+阅读 · 2017年11月22日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
文本到图像合成:十年回顾
专知会员服务
31+阅读 · 2024年11月26日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《可信文本到图像扩散模型》最新综述
专知会员服务
27+阅读 · 2024年9月30日
中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员