向AI艺术生成器索要任何图像结果令人惊叹——也令人恐惧-《华尔街日报》

Joanna Stern

2022-10-19

好了，大家安静。我终于为我的科幻图像小说找到了完美的插画师。我觉得这次可能真的能拿奖。好吧，从前有一个…

嗯，不太对。从前有一个…

等等，我为什么要用钢笔在键盘上写字？我的脸怎么了？我刚才说到，从前有一个…

图片说明：（上图3张）《华尔街日报》，OpenAI Dall-E 2现在这样才对味。

虽然这本书开头不太顺利，但插画师正在加班加点。而且我不需要付加班费——因为这位插画师是人工智能。

整个过程没有人类参与——没有素描师、摄影师、图片编辑。只有我、我的笔记本电脑和OpenAI的Dall-E 2。（这个名字结合了皮克斯动画机器人WALL-E和超现实主义艺术家萨尔瓦多·达利。）我在文本框输入那些描述，几秒钟内就生成了这些图像。

你也能做到。只需要想好要看到什么。“安迪·沃霍尔风格、戴太阳镜的兔子油画"“机器人坐在泳池边看《华尔街日报》的照片"“埃隆·马斯克晚餐吃蓝色推特鸟”。过去几个月，我用Dall-E 2和另一个名为Stability AI的DreamStudio的工具，把这些想法和数百个其他创意变成了图像。这两个工具最近都开放给公众试用。创建首批图像是免费的，之后就需要付费生成更多。

曾经只能在人工智能实验室里见到的东西，如今正走进我们的家庭和办公室。作为OpenAI的主要投资者，微软计划将Dall-E 2整合到新的必应图像生成器网站和Designer应用中。生成的图像可用于PowerPoint演示文稿、海报、社交媒体帖子等。

几十年来，我们一直听说人工智能将改变我们与计算机和世界的互动方式。这些工具可能是大多数人第一次真正见识到它的实际应用。几乎每次我输入提示词并看到返回的结果时，都会感到惊讶和有趣。

但我主要输入的还是一些听起来有趣的短语和想法。如果我尝试生成更可怕的东西，比如恐怖袭击的图像，会发生什么？随着图像质量的提高，这项技术会开始让人类艺术家和摄影师失业吗？

以下是我对您关于人工智能艺术最大疑问的最佳解答。

这些图像实际上是如何生成的？

使用Dall-E 2生成的图像，提示词为“猴子录制播客”。插图：OpenAI Dall-E 2你可能会看着那张“猴子录制播客”的图像想：“哦，系统只是把猴子和麦克风的图像拼凑起来！”其实不然。

人工智能系统会解读你的文字并创造出完全原创的图像。即使输入相同的提示词，你也永远不会得到完全相同的图像。（在制作上面的视频时，我尝试了“机器人阅读《华尔街日报》”超过100次。我从未见过相同的机器人，更不用说相同的图像了。）

那么，AI是如何知道一个播客猴子的模样呢？通过学习AI版的“识字卡片”。程序员们用数亿张带标注的照片训练AI，AI通过数学上复杂的过程解构这些图像。如今，Dall-E 2 AI已经解构了许多猴子图像和播客场景。随后，通过另一个名为“扩散”的复杂过程，它将一团无意义的像素云转化为一张高概率符合你要求的图片——比如这个戴着耳机、对着录音麦克风沉思的小家伙。

令我着迷的是系统如何试图理解词语与物体之间的关系。有时它能准确捕捉，有时却会遗漏语言中的微妙之处。下面这位科技专栏作家正试图写一篇专栏——字面意义上的。他一定是位极度热情的专栏作家，因为他甚至坐在一根爱奥尼亚柱上。柱子就是他的生命。

使用Dall-E 2根据提示“一位试图写专栏的专栏作家”生成的图像。插图：OpenAI Dall-E 2### 我能对图像进行创作控制吗？

真正的艺术在于在文本框中输入正确的词语。除了主题和场景，你还可以添加不同艺术风格，如“超写实图像”或“印象派绘画”。

以我创作的这幅“尝试修复惠普打印机卡纸，中世纪绘画风格”为例：

使用Dall-E 2根据提示词’试图修理惠普打印机卡纸，中世纪风格画作’生成的图像。插图：OpenAI Dall-E 2DreamStudio和Dall-E 2都允许用户上传自己的照片，清除图像的某个部分，然后输入文字要求来填补空白区域。

我真的能生成任何内容的图像吗？

这取决于您使用的系统。以"埃隆·马斯克手捧推特小鸟"为例。

Dall-E 2立即限制了该请求。其开发公司OpenAI不会处理包含公众人物姓名的提示词，以防止媒体操纵和虚假信息。其他名字则可以使用。这是"乔安娜·斯特恩在太空"的生成结果：

使用Dall-E 2根据提示词’乔安娜·斯特恩在太空’生成的图像。插图：OpenAI Dall-E 2当我在DreamStudio输入埃隆·马斯克的提示词时，它输出了这张图像：

使用DreamStudio根据提示词’埃隆·马斯克手捧推特小鸟’生成的图像。插图：Stability AI DreamStudioStability AI创始人埃马德·莫斯塔克表示，他认为没有理由限制生成公众人物图像的能力。公司发言人补充道：“我们将其视为开放平台，而第一修正案保护对公众人物进行戏仿的权利。”

Dall-E 2还限制了生成暴力、仇恨或成人内容图像的功能。该公司表示已从训练数据中移除露骨内容，并尽量减少AI接触此类概念。

例如，我向Dall-E 2输入"恐怖袭击照片"的指令时，只生成了风格化的警车图像和其他无害画面。而DreamStudio的限制则宽松得多——相同的恐怖袭击指令产生了地面散落变形尸体、枪支与火焰的图片。

它确实存在限制。虽然Stability AI引擎训练时使用过露骨图像，但用户无法用DreamStudio生成成人内容。当我尝试时，部分图像被自动模糊处理。公司发言人表示，通过图像和关键词识别的过滤器会拦截可能破坏网站服务条款的视觉内容。

如何识别网络上的AI生成内容？

目前，质量缺陷是判断图像由机器生成的最大线索，尤其是那些追求真实感的照片类作品。看到前文那位钟爱紫色的科技专栏作家朋友了吗？他显然不是真人。但所有受访专家都向我表示，生成质量将快速提升。

届时怎么办？我们只能依赖人类的诚信。OpenAI的政策鼓励用户“主动披露作品的AI参与情况”，并在图像添加彩色水印（尽管极易被裁剪）。而Stability AI则完全不添加水印。

真正的艺术家、平面设计师和其他人类会怎样？

在上面的视频中，我通过重现一个机器人在现实生活中阅读《华尔街日报》的提示来测试AI的极限——使用一个真实的人穿着真实的机器人服装和一位真实的摄影师。虽然AI图像生成器提供了更多视觉上的多样性，但真实照片在质量和细节上更胜一筹，显得更加可信。

一个穿着机器人服装的真实男子坐在真实的泳池边，与Dall-E 2生成的AI图像“一个银色人形机器人坐在黄色长椅上，旁边是泳池，正在阅读《华尔街日报》”形成对比。图片说明：Amy Lombard为《华尔街日报》拍摄，OpenAI Dall-E 2但那是摄影。AI插画或数字艺术风格产生的结果更加先进和令人印象深刻，有些人可能会选择将其用于网站、演示文稿——甚至是广告和营销。

“当我们在手机上安装摄像头时，许多人怀疑我们是否不再需要摄影师了。事实并非如此，”微软公司副总裁Liat Ben-Zur说，他负责AI集成工作，包括Dall-E 2。“我们正在改变创作者创作的方式。”

我从实际的创作者那里听到了不同的反应。一些专业的插画师和动画师正在使用这样的工具来产生想法，甚至将一些AI创作融入他们的作品中。其他人确实看到了这类工具可能夺走机会的潜力——或者更糟的是，剽窃他们独特的风格。

关于偏见的问题

我在Dall-E 2中首次查询"一位撰写专栏的技术专栏作家"时，返回了四张白人男性的图片。另一次查询"通勤上班的男人"也返回了四张白人男性的图片。而在DreamStudio中，输入"月球上的篮球运动员"提示词却生成了一张黑人男性的图片。

AI训练的数据源来自整个网络。“我们意识到这些数据严重偏向西方文化和白人男性文化，“卡内基梅隆大学机器人研究所的副教授Jean Oh表示，“这些模型会放大这些偏见，生成更多刻板印象的图像。”

OpenAI的一位女发言人表示，公司持续进行减少偏见和改进结果的研究。他们最近对Dall-E进行了修改，当查询不包含种族或性别时，会使其结果更加多样化——我确实看到了几个这样的例子。OpenAI和Stability AI都建议可以通过添加具体提示词来增加图像结果的多样性。

AI艺术的未来是什么？

当我向Dall-E 2提出这个问题时，得到了这张图片：

使用Dall-E 2生成的图片，提示词为"AI艺术的未来是什么？“插图：OpenAI Dall-E 2它很好地捕捉到了这种情绪。我们的世界以及我们看待它的方式已经被我们在电脑上看到的内容所改变。现在，电脑将在创造我们所看到的内容方面发挥更大的作用。虽然我们现在可能会嘲笑这些系统误解语言或错误构建动物或人脸的方式，但这一切都将以惊人的速度改进。所有大型科技公司都在研究如何将这种AI融入他们的产品中。Meta 已经在讨论AI生成的视频了。

这将使那句古老的谚语变得更加重要：“在互联网上，不要轻信你看到的一切。”尤其是当它是一张……的照片时

图片说明：《华尔街日报》，OpenAI Dall-E 2*—在此订阅乔安娜·斯特恩的《科技那些事》，这是一份新的每周通讯。如今一切都与科技相关。专栏作家乔安娜·斯特恩将作为您的向导，分析并解答关于我们这个永远互联的世界的问题。*

联系乔安娜·斯特恩，请发送邮件至 [email protected]