创造力2.0 —人工智能时代的设计变革与机遇

近期我们针对自己的人工智能设计引擎,做了多次内外部分享,以下为其中一个较为全面的演讲实录,包含过去两年我们对人工智能设计的技术思考和实践,全文7000字,需要一些耐心来阅读:)

同学们下午好!我是联想研究院交互视觉设计团队的高歌。非常开心收到CLAPS项目组的邀请给大家分享一个人工智能与设计在未来如何交叉,如何碰撞的话题。

实际上今天分享是有些压力的,原本研究院的设计出去讲很有优势,我们也很自信的。之前我们见到设计师,就给大家讲技术,大家都很兴奋——你们会做设计还懂代码,听着就很牛;见到工程师我们就讲梵高莫奈毕加索,大家也觉得很牛,因为不光懂技术还有艺术范儿。 但是你再看今天,现场状况不容乐观:设计师来了,工程师也来了,难度进一步提升。好在大家都是自家人,不用太客气,我放开了讲,说的不好的欢迎批评指正.

那么我们为什么会选这么一个人工智能+设计的主题,我想研究院是站在趋势上看问题,在研究院做设计,我就在想设计的趋势是什么? 我们就看到了这样一个趋势:我认为设计领域在今天出现了前所未有的变革机会。

说到变革,我们会发现自然科学领域和文学设计领域巨大的差别,2000年前,春秋战国时期,‘日行千里’是人对于速度想象的极限,而2000年后的今天,也正是前两天的新闻,spaceX很快可以把普通人送上太空,自然科学的变革翻天覆地。反观文学艺术设计领域,在2000年前,春秋战国时期的绘画(人物御龙图),或是孔子的文章,是文学艺术的高峰,在2000年后的今天,机器可以帮我们打字更快,搜索知识更全,但”学而时习之,不亦悦乎” 这样的诗句,2000年过去了,机器依然写不出来,可以说这个领域与2000年前相差无几。

为什么文学设计领域仿佛2000年没有什么变革?大多数人给出的原因在于:灵感,直觉,想象力,是人独有的,科学技术是不能替代的。我认为在过去2000年这都是对的,但在当今即将发生变化。就如同以前谈论围棋,棋手的直觉,灵感,棋魂,等等,这些词汇在设计中也很常见,但alphago之后,大家已经不这么说了。我认为设计行业比围棋要难,但随着AI海平面的上升,设计创造力这个最高峰,也有被淹没的可能。那淹没了是不是机会没了?我的理解相反,是机会来了。

我们说到探索新技术,首先要讲价值,毕竟我们在的是商业公司。我这里列出了我们认为的两个最大的价值:

第一个 叫做大规模个性化,人对设计个性化的追求是不断提高的,就像吃饭一样。50年前,计划经济时代,大锅饭大家吃饱就很开心,现在呢,你给每个人同样的饭,大家可能就不太接受,但你看,现在我拿出个手机,打开个APP,你也拿出个手机,打开APP,发现手机和APP一模一样,未来,大家会满足我的东西和你的东西完全相同吗?我认为随着时代的发展,大家不会满意,会追求为自己定制。 大家还在使用人人相同的设计,不是意愿问题,而是一个生产力问题,因为我们没有1亿个设计师给10亿人做设计,那未来这个事怎么解决,就要人工智能设计来解决。这是我们做人工智能设计的第一个价值。

第二,创新社会化媒体营销,大家只要用抖音快手就了解,在今天,社会化营销的力量对产品的商业成功起到了前所未有的重要作用,这里有几个例子,snapchat,国外知名的社交软件,在去年他发布了一个性别转换滤镜,功能一发布,市值当周上涨9%,Prisma,一个人工智能滤镜应用,就拿到千万的融资,当然还有大家都知道的,微信军装照,10亿PV,就是10亿的浏览量啊。这是什么样的量级和价值,我们哪天做个营销,那怕100w的PV,在我们公司都是空前的成功营销。这些例子的背后都是人工智能,图形图像生成设计的应用。看上去每个都有巨大的商业价值。

好,在我们正式开始技术实践之前,一件非常重要的事就是选路线,AI那么多方法,用哪个方法去做设计?换句话说,图形设计到底对应什么样的计算问题?这是一个非常关键的判断。

首先如果你问一个设计师,设计是怎么做的? 那么最常见的一个答案就是,设计师会把设计描述成一个决策问题,先是空白的画布,分析需求之后填背景,填颜色,调整。加图形元素填颜色调整,加字体,填颜色。。。。一步步做下来设计就完成了。我们可以把它看做是一个:在无限的决策组合当中,寻找最优的设计决策路径的过程,那么有些懂技术的同时可能就了解了,这可以抽象成一个随机计算问题,用强化学习的方法来实现,当然,我们发现业界竞品中比如阿里鹿班就是这么做的。我认为一个工程师和设计师分开合作的团队,常常会走到这条路上。

另一个设计抽象成数学问题的思路,我们不看设计过程,只看结果,比如面前有十张图,你不用想他是怎么来的,只看图面,你会发现,所有的图都是形状,颜色,布局,纹理质感文字的组合, 那么我们就可以把它看成:在无限的形状布局颜色的集合中,找到‘美的组合’的分布,这就变成了一个概率统计问题,那么他背后需要用到的方法是生成对抗。 以我自己交叉学科的判断,我们要走这条路。(至于为什么不走强化学习,我们就不细谈了,主要是因为设计不同于围棋,并没有唯一解)

好,由此,我们就确定了我们最上层的路线:用生成对抗来实现目标

这里描述的可能有些技术化,如果大家还不明白,就看图片中这个例子:

第一个问题问大家 :为什么画鬼容易画人难? 大家想过这个问题没有? 暂时没有答案就看下面两个就明白了,请问:大海捞针,大海捞鱼,大海捞水,哪个难?相似的问题:请问制造一个整齐的屋子以及制造一个乱糟糟的屋子那个难?这次就清楚多了,当然是整齐的屋子,为什么呢?大家可能有不同的答案,但我的答案是,因为制造一个乱糟糟的屋子的可能性要远远大于制造一个整齐屋子的可能性。 随便整就能整出乱糟糟的样子,而整齐的很难。我们再看,这个整齐的屋子不就是优秀设计吗? 而乱糟糟就是其他设计, 那我们设计的数学意义就是”在无限的形式布局颜色等集合中找到美的分布“


说了这么多,我们要做些有技术含量的事了,开始实践。工具上,和大家做人工智能的基础工具差不多,tensorflow加python。用生成对抗的算法及我们的设计数据集训练模型然后测试。这里很多人不了解这个G A N ,生成对抗算法,我认为感兴趣可以去查查这个造假者和警察之间的故事,我们常用他来解释GAN,简单说,警察就是一个最为常见的分类网络,我们把好设计和随机数放进去训练一个能区分设计好坏的模型。 造假者是另一个网络,随机数进去出来一些随机设计,之后接到警察这个网络上。 好,那么怎么训练呢,我们要先训练一个不那么强的警察,大体能分辨好坏设计,然后固定住警察,训练造假者,优化造假者使警察认为他产生好的设计,之后再固定好造假者,训练警察,让警察把造假者的输出都认定为不好的设计。多次循环,这样他们两个就会越变越强,这就是大伙可能听过的左右互搏了。当然最终我们要的是造假者的结果哈。 虽然你可能还是不明白GAN是什么,但不管那么多,“干”就完了。

好,那么结果来了——你看我们喂给这个神经网络一些东西,看它能生成什么?

首先,我们给他几百张海报,这是设计师常见的需求了。大伙可以看屏幕右侧,从左到右是随着它训练时间的增加,得出的结果。最左边他还什么都学不到,后来,好像逐渐学到了一些颜色,再之后又好了一些,但也就这样了,不会再好了,我们拿到结果之后叫他“破败风” ——显然没法用; 再看头像,我们给网络20000张头像,开始也是什么都出不来,但后来它逐步知道了,奥,原来这里是眼睛,那里要放嘴等等,最后大体能有些接近的结果。以及下边,这个是Mr.doodle国外知名的简笔画家,大伙可以看到些奇怪的,有意思的结果

Mr.doodle简笔画生成对抗训练过程

这个动画大家可以看的更明白,他展示了从开始训练到训练结束整个过程,人工智能是如何进步的。 首先是头像,好像最后有点意思,之后是Mr.doodle,乱糟糟一篇,当然还有我们设计师最常设计的图标…..学习到最后就是这个样子

我们拿一个例子来看,左边这个是Mr.doodle先生的画,右边是AI学习之后生成的画。大家怎么看?看起来不太好是吗?

实际上呢,我认为从计算的角度,AI做的还是不错的,线条间隔都和左边类似。但我们作为人或者说人类为什么觉得有问题?主要原因是你有对这个世界的理解,什么是动物,什么是眼睛鼻子。而我们没有告诉神经网络这些。 你这样想,假设一个外星人过来,他从来没有见过任何地球上的东西,他会怎样看着两幅画,很有可能,他认为这两幅画没什么区别,都是同一个文明出来的东西。所以从这个角度上来说,神经网络也很冤,它觉得自己做的不错,而在我们看却一无是处。

当然,但作为一个严谨的设计师,我不死心,这里有些生成的图标,拿给我们设计师看,如何?所以右边是我们的设计师 圣斌同学,他看了之后,不出所料的给我了三个字 “呵呵呵” ——显然,没法用,大家也都看出来了。

那么问题在哪里呢?我们说设计可以抽象为寻找特定数据分布的问题, 那么一个1000*1000分辨率的显示器可产生的图形是256的三百万次方种。这个数比宇宙所有基本粒子的数量大得多,生成对抗过程就是放几个尘埃(数据集),找到他们的分布(训练过程)然后画个圈包含他们,圈里的就是好设计(推测),现在的问题是这些尘埃实在太远了,连续不起来,自然也找不到好设计。显然问题就是图像数据维度太高了。

对这个问题的解决,我们的思考就是把维度降下来,所以在第一波实验中,我们用图形元素替代像素,把维度降到260维左右,进行生成对抗,之后再翻译回去。这样一来我们就把在宇宙中寻找几个尘埃的工作变成一堆沙子里寻找几个尘埃的分布问题,貌似容易了一些。

自有新算法下的生成对抗过程(任务为背景图形设计)

按照这种降维的思路,我们搭建了一套系统来验证。话不多说,这里看结果。

请大家关注视频中各个图的背景,我们给大家展示的就是神经网络从开始训练到训练结束的过程,大家可以看到,神经网络从最开始不知道向背景中放什么元素,填什么颜色,怎样去布局,它甚至不知道应该把图形发到图片框里面,但随着训练的进展,逐步的它将图形元素散开,找到一些布局关系,颜色也从奇怪的搭配变成相对舒服的搭配,到训练的后期,逐渐形成了一些“还不错”的背景设计。虽然做得和人差的很远,但思想是验证成功了,我们也很兴奋。 至此实现了我们第一阶段的初步成功。

第一步成功了,那么下一步我们就进入了——科学研究最关键的步骤,那就是等,花时间,因为训练需要花时间,数据集更新要时间,算法调整要时间。所以这里我放了一张抖音图,此处应有配音“2000 years later”。 虽说没有2000年吧,但200天是有的.

好,坚持了很长时间的研究,总算,我们有一些拿的出手的人工智能设计作品了,比如这个流动的背景,不光大家觉得不错,设计师也认为很好。 所以这里向大家隆重介绍我们的人工智能启发式设计工具,小绘。

小绘的能力覆盖了多个领域——品牌设计,包装设计,广告设计,互动设计等等。 现在已经积累了3大智能设计能力:设计素材创意,智能风格互动,个性头像的市场营销,都不在话下 。

首先,抽象素材生成能力,我们让小绘生成600张图,把它串起来,便形成了大家看到的这个视频,颜色丰富,动态流畅。像这样的动画,小绘可以做到连续生成102年不重复,把它停到任何一帧,都是大体可以作为素材的一张抽象图,虽然达不到人类高级设计师水平,但对于很多抽象图应用场景,足够用,且取之不尽。

简单举例,我们可以把它应用于手机动态背景,如果你盯着它看,还能看到它的一些特点,比如这个动画是首尾相接的,循环会来没有任何接缝。当然我们知道iPhone也是有动态壁纸的,我们可以拿出来对比一下,可以说在某种程度上,我们的更有竞争力。

说到这个技术的优势,首先就是不要钱,研究院的光荣传统 ,第二无限生成,第三首尾相接以及我们最自豪的,业界没有相似的技术,如果哪家还可以做这个技术,请告诉我,我特别想去拜访一下,但据我所知,没有。

刚才说到的是我们的无限生成能力,但是我们光生成不行啊,设计师们说,我得能控制。那么这里我们就给大家看一下我们的智能编辑功能让大家如何随心所欲的控制。首先设计师收到的需求往往都是这样的: 累死累活出了2个方案,结果甲方爸爸说:我觉得A方案这好,我觉得B方案那里好,要不你给我结合一下?设计师日常式的崩溃不过如此哈,但这个需求在小绘面前,不算难。大家可以看到上图,前两张图都是苹果的官方壁纸,那需求来了,我认为第一张的形式不错,我又想要第二张的色彩,你结合一下? 那么我们提取形态和颜色(实际上是反向编码的过程),重新运算一下就可以了,你也不用管这个颜色到底怎么填到这个形式里去,小绘的神经网络会在她学习过的所有优秀图片里去找到规律填进去,不用操心。

那么下一个设计师典型编辑需求,甲方或老板一般来说不会告诉你说,调高图片饱和度,调低对比度,放大1.5倍等等,他们提的都是更上层的,比如我要更科技感,颜色有点单调等等。这些都是抽象层次更高的要求,或者说在计算机领域都是上层语义,那么现有传统设计师工具是无能威力的。所以这里我们也贴心的给出了语义控制编辑能力,看下图,左侧是一张色调单一的图片,老板说“单调了,多彩一点” ,可以看到右侧,我们只要在原图片上不断叠加训练出的多彩向量,那么图片就会多彩起来。 至于怎么多彩,一样不用操心,神经网络会参照她所见过的多彩图片来决定。

选定背景之后,应用起来也比较轻松,比如图中左边四张广告宣传,我们的设计师20分钟完成,效率不用说,空前的质量时间比。至于拓展应用就更多了,包装,展台,壁纸,以及我们去年就已经发布的实物周边,轻松用起来。

第二项功能,智能风格的互动应用。对于有一定人工智能基础的同学来说,风格转换并不陌生,简单说它可以快速帮你生成选定艺术家画风的图像。智能风格应用可以很大程度提高特定艺术领域的效率,如《挚爱梵高》这个影片,为了致敬梵高,数百位艺术家创作了上千副手绘梵高风格油画,组成一个影片。艺术家们可以说付出了大量的劳动才最终使影片上映,但如果当时他们知道风格转换技术,相信就不用花费这么多心血了。

这里便是一个例子,图中是我们为公司Marketing团队创作的梵高风格影片节选,同样的影片我们不用100位艺术家,10分钟的影片我们大约20分钟就制作完成了。最终这个影片也应用于公司品牌宣传之中。大家可以听到某一帧看效果,实际质量是非常高的。

风格转换作为一个开源算法,小绘在这里的主要优势即是我们结合设计师理解和算法优化,提供了质量更高的图形转换效果。同时更近一步,做到了接近实时的神经网络转换,也是因此我们将它变为一个展会互动产品,在2019年联想全球科技大会中展示,现场效果空前火爆。

小绘第三项能力,个性头像的市场营销。在传播领域,头像无疑是个强需求,每个人可能有不同的关注点,但自己的脸几乎所有人都会关注,假设我们提供一个应用,他可以看到你的过去,你的未来,你在二次元中及中世纪艺术中的样子,想必是比较有吸引力的。

头像转换能力帮你轻松跨越时空,正如图中看到的,这些都是我们组的设计师们。 包含多种类型的转换,二次元?可以,中世纪,轻松实现,让这些头像动起来?同样没有问题。

在实现人脸变换之外,我们还可以对人脸的属性进行各种各样的控制,你可以看到在各个维度上,我们可以进行随意控制,变小孩子,便老人(过去和未来的你),性别,种族都没问题,实际上有些很有意思,比如你是个女生,那么我们进一步变换成女生会怎么样,那我们就可以得到一个更女性化的你,我们有13种属性可以变换,几乎能想到的都可以控制。

我们将个性头像应用在各个领域,我认为最能体现价值的方向依然是市场营销,找到一个好的话题可能带动一大波流量。比如我们最近想发的一个话题——首次揭秘蒙娜丽莎正面高清照。这样的话题配合好传播渠道,制造一个1w+或更高的PV(浏览量)不难。有流量就有价值,有流量就可变现。

以上是小绘的几项能力,但看了这么多,仍有一些实际应用的问题没解决,最大的问题就是我们应对需求,还是人肉式的,像是一个小作坊,你想要转换张图,发我们敲代码,转换之后给你,显然这是没法形成规模效益的,所以,我们要把能力自动化,平台化,这这个思考下,我们便推出了——小绘设计创意赋能平台,将我们的能力集中的介绍和开放给大家, 目的是使我们的内容触手可及 。目前还在测试阶段,开放的功能有限,Bug有点多,希望大家能以关照小孩子的态度对待她。

到今天,小绘AI设计已经落地公司内部多个部门,包括数字门店,本智生活,公司市场部,我们在去年还开办了第一个人工智能艺术展,成为展会的流量明星,当然最厉害的,我认为是小绘的设计得到了设计团队的认可,所以今天你可以在公司重量级产品Yoga2020发布会官方视频上、年底上市的摩托罗拉手机上看到我们的身影,能让一线的设计师认可的设计,足可以让我们高兴一阵子了。

最后的广告时间,欢迎扫描二维码关注我们的公众号,也希望我们的AI设计启发平台和这个呆萌的小家伙与各位设计师哥哥姐姐们共同成长!