Text-to-image models are trained using large datasets of image-text pairs collected from the internet. These datasets often include copyrighted and private images. Training models on such datasets enables them to generate images that might violate copyright laws and individual privacy. This phenomenon is termed imitation -- generation of images with content that has recognizable similarity to its training images. In this work we estimate the point at which a model was trained on enough instances of a concept to be able to imitate it -- the imitation threshold. We posit this question as a new problem and propose an efficient approach that estimates the imitation threshold without incurring the colossal cost of training these models from scratch. We experiment with two domains -- human faces and art styles, and evaluate four text-to-image models that were trained on three pretraining datasets. We estimate the imitation threshold of these models to be in the range of 200-700 images, depending on the domain and the model. The imitation threshold provides an empirical basis for copyright violation claims and acts as a guiding principle for text-to-image model developers that aim to comply with copyright and privacy laws. Website: https://how-many-van-goghs-does-it-take.github.io/. Code: https://github.com/vsahil/MIMETIC-2.


翻译:文本到图像模型通常使用从互联网收集的大规模图像-文本对数据集进行训练。这些数据集常包含受版权保护的图像及私人图像。在此类数据集上训练模型,可能导致模型生成可能侵犯版权与个人隐私的图像。这一现象被称为“模仿”——即生成内容与其训练图像存在可识别相似性的图像。在本工作中,我们估计了模型为能够模仿某一概念所需训练的图像实例数量——即模仿阈值。我们将此问题定义为一个新的研究课题,并提出一种高效方法,可在无需承担从头训练这些模型的巨额成本的前提下估计模仿阈值。我们在两个领域——人脸与艺术风格——进行实验,并评估了基于三个预训练数据集训练的四种文本到图像模型。我们估计这些模型的模仿阈值介于200至700张图像之间,具体取决于领域与模型类型。模仿阈值为版权侵权主张提供了实证依据,并为旨在遵守版权与隐私法的文本到图像模型开发者提供了指导原则。项目网站:https://how-many-van-goghs-does-it-take.github.io/。代码仓库:https://github.com/vsahil/MIMETIC-2。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员