GAN(生成对抗网络)经过不断发展其有了不错的效果,但有些始终难以克服的问题:生成结果多样性缺乏、模式坍缩(生成器在找到最佳模式后就不再进步了)、训练难度高。这些困难导致AI生成艺术一直难以做出实用的产品。
在GAN多年的瓶颈期后,科学家想出了非常神奇的DiffusionModel(扩散模型)的办法去训练模型:
把原图用马尔科夫链将噪点不断地添加到其中,最终成为一个随机噪声图像,然后让训练神经网络把此过程逆转过来,从随机噪声图像逐渐还原成原图,这样神经网络就有了可以说是从无到有生成图片的能力。而文本生成图片就是把描述文本处理后当做噪声不断添加到原图中,这样就可以让神经网络从文本生成图片。
DiffusionModel(扩散模型)让训练模型变得更加简单,只需大量的图片就行了,其生成图像的质量也能达到很高的水平,并且生成结果能有很大的多样性,这也是新一代AI能有难以让人相信的「想象力」的原因。
在DiffusionModel(扩散模型)诞生短短两年内,就把AI生成艺术带到了可用的程度:
甚至连「央视新闻」都已经在时事新闻中都使用AI生成的图片——
很可能在更多不注意的角落,AI生成的作品已经开始被使用了,而大家却还不知道,这意味着一件重要的事实:大众已经无法分辨AI生成作品与纯手工作品了,虽然高质量的艺术创作还很难用AI取代,但AI生成作品的效率足够高,在大部分日常消费艺术作品(插画、封面、海报)中使用AI生成的素材是非常有吸引力的事情。对于艺术创作者而言,不得不承认的使用AI生成工具会慢慢的成为创作者必备的技术之一。
因为AI对于大部分人而言都是难以真正理解的,所以人们会用各种各样的角度看待AI,其中不乏很多抵触的声音。
这在其他领域已经发生过了,现在任何人都能从网络得到上免费开源的可用性极高的人脸识别AI工具,因为人脸照片是非常易得的数据源。而医药研发的AI工具则被少数的大公司垄断,因为没有人能轻易得到昂贵的医药研发数据。
从事实上来说,现在的AI生成工具并不是有些人想象中的存储了大量的图片数据然后用某些规则去「拼合」,AI所用的模型是使用数据集去「训练」产生的,而不是数据本身,用几千TB的数据源去训练最终可能只得到几GB的模型,大小只有数据集的百万分之一,而使用这个模型生成新作品并不能用简单的「拼合」去理解。
另一个AI生成艺术的争议是图片真实性的危机,以前虽然有Photoshop甚至胶片时代也有「暗房技术」来制造假图片,但是始终有不小的技术门槛,但是AI生成艺术工具让生成假照片的门槛降低了很多,并且AI生成的图片很可能比真实照片更有表现力,更利于传播,现在已经有很多时事新闻中的图片是用AI生成的了
有的人认为现在AI生成艺术虽然看起来「想象力丰富」但却不「精确」不「稳定」,并不适合UI创作。但我觉得这其实是「工程」问题而非是AI的能力限制。
目前生成图片的AI除了生成插画,确实不太适合UI设计,因为UI设计非常的结构化,神经网络确实很难去「理解规则」,但现实中还会有神经网络与规则算法协作的办法,让AI生成「精确」的设计图理论上不存在问题。
人们总是高估新技术在3年内的发展,却又低估其在10年后的影响。
——阿玛拉定律
AI生成技术有一个不可能三角:质量、速度、多样性,目前的DiffusionModel(扩散模型)着力在质量与多样性上,而速度则是个问题,所以目前的AI艺术生成工具的生成速度都非常慢,几十秒甚至几分钟才能出图,虽然比人手工画可快多了,但是由于生成结果的不可预期性,人们需要反复尝试,体验不佳,接下来随着AI生成艺术工具的发展,速度一定会得到提升,当能做到输入内容一秒内就能预览到多个结果时,AI生成艺术工具就会真正改变艺术创作流程。
可以想象会出现一个类似GithubCopilot的AI帮助你编写提示词去操纵另一个AI生成图片
现在的AI生成工具大多面向普通人,针对创作者群体的工具也有很大的发展空间,比如根据已完成内容完成剩下的内容、根据现有作品拓展不同的版本、指导下一步可能的操作这样融入创作工作流的工具。比如Figma的Ando插件就是一个例子
有些绘画爱好者认为绘画艺术重要的是过程的体验,AI可以生成优秀的「作品」,但它无法取代创造艺术的体验和乐趣,而创作者体验这些的过程就是艺术的美,这种看法或许有些狭隘了。如果把绘画当做描绘内心与表达自我的一种手段,AI生成其实也是一种手段,AI艺术创作者也会在使用AI的过程中得到自己的「心流体验」,体会到用AI创作的乐趣与艺术的美。