100万人排队在等！DALL·E公开测试版，还收上费了

会员服务 ·

100万人排队在等！DALL·E公开测试版，还收上费了

2022 年 7 月 21 日 新智元

新智元报道

编辑：拉燕桃子

【新智元导读】现在，OpenAI宣布将正式推出DALL-E测试版，直接向用户收费了。｜还在纠结会不会错过元宇宙和web3浪潮？清华大学科学史系副教授胡翌霖，这次给你讲个透！

今天，OpenAI正式宣布DALL-E准备向100万个用户开放测试版。

问题还不是免费的。

第一个月，用户有50个免费积分，以后每个月有15个免费积分。

一个积分可以提交一个文本描述，仅能生成4张图片。

如果不够的话，15美元兑换115个积分，相当15美元（约100元）能生成460张图片。

具体看下图：

有趣的是，用户还能获得自己生成图像的使用权，包括商业用途。

也就是说，你可以把生成的图像印在T恤或者儿童读物上，拿出去卖钱。

但是，目前OpenAI仍不允许DALL-E上传真实面孔图片，以及试图制作公众人物(包括名人和著名政治人物)的肖像。

为此，OpenAI今天还给DALL-E 2新开了一个推特账号。

我不允许还有人没听说过DALL·E。

毕竟，现在都出到2代——DALL·E 2了。

这是一款由OpenAI开发的转化器模型，全部的功能就是把「话」变成「画」。

具体来说，DALL·E是一个有120亿参数版本的GPT-3，被训练成了使用文本生成图像的模型。背后的数据集是文本-图像的对应集。

DALL·E神通广大，什么样的画都做得出来。不论是拟人的物体还是动物，只要你敢想，DALL·E就敢做。它会用合理的方式整合不相关的概念，创造出合理的图像。

看看上面这几张图，有戴帽子的狗，做实验的熊猫，还有长得像星云的狗狗（bushi）。有没有觉得，哪怕不合常理，但是并不违和？这就是DALL·E能做到的。

说起DALL-E的源头，其实是研究人员从GPT-3那里得到了启发。GPT-3是个用语言生成语言的工具，而图像GPT则可以用来生成高保真度的图片。

接着，研究人员就把这个结论拓展了一下。他们发现，用文本来操控视觉，是可以做到的。

也就是这样，DALL·E成为了一个和GPT-3一样的转化器。

DALL·E将图像和文本作为单一的数据流接受，其中有多达1280个标记，然后进行训练。随后，一个接一个的生成所有标记。

这种训练程序使DALL·E不仅能从头开始生成图像，而且还能延展原图（也就是在原图的基础上继续生成），且和文本内容是一致的。

研究人员发现，DALL·E经过上述的训练，能为各种语言组成的各种句子创造对应的合理的图像。

上面的六宫格只是浅浅展示一下，这种效果的图片其实多的是。

而且有一点需要提醒朋友们注意，研究人员没有介入人工，剔出某些图片。这意味着什么，不用多说了吧。GPT-3生成的东西还有乱八七糟，得人工删掉呢。

在此基础上，研究人员又开始琢磨同时用文本描述多个物体，生成一张图。这些物体各自的特征、之间的空间位置关系全都交给文字来描述。

无疑，这是一项全新的挑战。

比方说，输入文本：一只戴着红帽子、黄手套，穿着蓝衬衫和绿裤子的刺猬。

为了正确生成对应的图片，DALL·E不仅要正确理解不同衣服和刺猬之间的关系，还不能混淆不同衣服和颜色的对应关系。

这种任务被称作变量绑定，在文献中有大量的相关研究。

可以说，DALL·E从1代到2代，就是这么一个个小任务走过来的。最终能够呈现的就是一个不错的文本-图像转化器。

也正因如此，DALL·E推出测试版也属实让网友激动了一阵。

可看看网友评论，好像有不少产品之外的问题啊。

网友怎么说

这也太贵了，创建一张好的图像需要多次试错。产品很不错，但是收费太让人扫兴。

有网友担心起了版权问题。

还有网友直接表示，我在5月17号就排上了，到目前还没用上。

对此，你怎么看？

参考资料：

https://openai.com/blog/dall-e-now-available-in-beta/

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

AlphaFold预测出2亿种蛋白质结构，打开整个蛋白质宇宙

专知会员服务

14+阅读 · 2022年8月1日

「计算机视觉」2022 年 5 大趋势

专知会员服务

76+阅读 · 2022年3月27日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

42+阅读 · 2022年3月15日