1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

AI绘图还在卷,阿里新绘图模型上线,图片创作更精准可控

1987web2023-08-29人工智能AI114
原标题:AI绘图还在卷,阿里新绘图模型上线,图片创作更精准可控

原标题:AI绘图还在卷,阿里新绘图模型上线,图片创作更精准可控

在这两天举行的 2023 世界人工智能大会上,阿里云旗下的通义系列大模型上新了一位新成员,通义万相,并开启了定向邀测。

通义万相是一款 AI 绘图应用,对于 AI 绘图大家应该都不陌生,毕竟在此之前就有大名鼎鼎的 Midjourney 和 Stable Diffusion 了。

但这次重点在于,通义万相还使用了新的绘图模型 Composer。

可能有些读者对绘图模型的重要性不太了解,其实 AI 绘图的发展,离不开 AI 绘图模型的进步。

从早期的生成对抗网络模型 Gan,到现在很多知名 AI 绘图软件都在用的扩散模型 Diffussion。

随着训练模型的迭代,AI 绘图的能力也是越来越强。

而这次的绘图模型 Composer,也不例外。

早在几个月前,阿里就发表了 Composer 相关的论文,而且外网上对于 Composer 的讨论度还不低。

比如,有博主就发推文晒出了一些通过 Composer 模型生成的不同风格的图片。

在这些例子中,有把棕毛马变成斑马的,把名画变成真人的,把狐狸变成老虎的,这些生成图不仅保留了原图像的动作外形等细节,在风格转换的融合上也是几乎看不出什么违和感。

这个 Composer 之所以能有这么好的风格置换效果,和它这个模型框架的核心思想分不开关系。

因为 Composer 主打的就是一个组合性,它是在文生图 Diffusion 扩散的基础上,更进一步,称之为可控扩散模型。

大家应该都知道,现在的主流 AI 绘图模型基本上用的都是 Diffusion 扩散模型,Diffusion 扩散模型的训练基本原理要说起来也非常简单,就是给图片加噪声,然后通过神经网络学习图片加了噪声和去了噪声后是什么样子,在生成图片时,进行反向推理就行了。

不过 Composer 既然加上了 可控 二字,必然有其独到之处,为了让图像的生成更有可控性,Composer 在进行加噪训练前,还多了一个对图片的重新拆解和组合的过程。

拆解的,就是图片的一系列基本元素,比如线框,图片中分割的物体蒙版,深度信息图,颜色信息等等。

随后,再把这些分割的元素图,拿去做扩散模型的训练,训练出模型后,在推理阶段重新组合。这样,由于训练时的数据量更多,而且对元素也有过分类训练,在生成图片时,就能对图片中的各种细节元素,进行单一属性的微调,大大增加了图像生成的可控性和组合创造性。

以上说了这么多,都不如自己亲自试用了解的快,而且碰巧,本次知危编辑部也获得了定向邀测的资格,接下来咱们就测测这个通义万相真实实力到底如何。

本次测试,通义万相一共开放了三项功能,分别是基础的文生图功能,相似图片生成,以及图像风格迁移功能。

首先是文生图功能,这个功能重点在于它对咱们输入的中文语义理解如何,以及生成的图片美感如何。

第一个挑战的是虚拟动漫风格,知危编辑部让通义万相生成一张:

一只带着黑色鸭舌帽的猫头鹰,站在一块滑板上,迪士尼画风,月光洒在大地上。

在通义万相给出的几张图中,文字描述所提到的内容基本全部理解,猫头鹰和背景画的也不赖,算是完成的比较好。

随后知危编辑部又让通义万相尝试了一波写实风格:

末日废墟,长满杂草和植物,生锈的人形机器人半埋在土里,写实风格。

这一次稍微有点不太对,虽然通义万相对前面场景描述的细节基本都还原了,但是整个画面还是有浓烈的绘画风格,对写实这个关键词并没有把握住。

一开始,知危编辑部怀疑通义万相是不是没有太理解写实这个词,随后又尝试换了几种说法和测试,比如换成摄影风格,或者说是拍摄照片,结果都不是特别好,当然横向对比了几波,通义万相的表现已经是国产 AI 绘画大模型里表现最好的大模型之一了。

知危编辑部还发现,除了默认生成风格外,通义万相还提供了几种设定好的风格,不过也是全部偏绘画风格,比如水彩,油画,中国画之类的,感觉有点特意避开写实图片的意思。

所以知危编辑部对于文生图这个功能的评价是,中文的语义理解能力挺棒,整体不同风格生成的质量也较好,但是在写实风格上略显不足,画面表现力和美感尚可。

接下来就是通义万相的二号功能了,相似图像生成。

这个功能需要提供一张素材图片,交给通义万相分析后,会根据图像的各种特征,生成类似风格的图片。

知危编辑部尝试的第一张照片,是一只羊驼。

这是一张写实的图片,如果按照之前的文生图的评测来看,它应该没办法生成非常写实的类型。

不过让知危编辑部意外的是,这次的相似图片生成, 结果居然依旧很写实。

可以看到通义万相很好的提取出了画面中的重点,一只羊驼和绿色草地,而且对草地和羊驼的形状进行了重绘。

除了羊驼外,后续知危编辑部又使用了一些其它图片来做相似图片生成,比如这个透明泡泡的图片,生成的相似图片中,不仅保留了泡泡的外形和整体构图,泡泡中的植物还进行了很多细节上调整。

之后,知危编辑部还和设计部门的设计师们从实际应用方向讨论了一下这个功能,他们都觉得这个相似图片生成最厉害的地方在于,它能分清画面中的主体到底是什么,比如这个泡泡明显是一个主要的元素,而泡泡里面的植物是可以进行多样性的变化的。

这个看上去很小的点,实际上是显示了通义万相在对画面结构分析上的厉害之处,在实际设计平面图的过程中,如果 AI 能直接帮助分析主体,并且按照主要信息给你返多张相似图片,那么对于提供设计素材的多样性帮助还是非常大的。

接下来测试的最后一项功能就是图像风格迁移了,这项功能会要求你提供两张照片,一张是原图,另一张则是需要迁移的风格,比如这里知危编辑部就选择了一张乡村风景图,让通义万相迁移成名画《 星空 》的风格。

不过从最后的结果来看,首先,颜色风格肯定是变得更像《 星空 》了,但是整个画画的笔触,知危编辑部感觉还没有模仿到精髓。

随后,知危编辑部又测试了几个案例,发现这个风格迁移在元素相对简单的画像上,效果还是挺不错的,比如把一只河马的素描迁移成类似纸版画风格。

整个过程也就短短几秒,最后出来的河马也确实像那么一回事。

知危编辑部同样问了问设计部门对这个功能的看法,据设计师们的说法,这个功能更像一个万能的滤镜,它方便之处在于,可以通过寻找自己想要的风格图片,快速给素材套上这种风格的滤镜,而平常如果要手工处理这种活,复杂的干上一天都是有可能的。

但问题也是有的,现在对于一些特定的素材模仿其实并没有那么到位,比如之前《 星空 》的那幅画,在笔触部分就没有很好的呈现出来。

这次的测试下来,知危编辑部认为通义万相体验还是非常不错的,而且它在中文语义的理解上表现,也是让整个测试过程无比轻松愉快。

现在的 AI 绘图虽然已经是一个老话题了,但是目前把 AI 绘图真正的往产品化发展,去针对设计师们的痛点提供工具的还是非常少的,而据阿里方面人士回答,通义万相目前的这三项功能未来还会改进,并且还会针对不同行业的不同需求,上线更多的绘画功能。

其实 AI 的概念开始火起来之后,AI 绘图算是率先渗透进各个行业的 AI 应用先驱,毕竟绘画作为一项非常古老的人类技艺,在如今的各行各业,多多少少都会有所涉及。

市场对绘画和设计的需求,催生了 AI 绘图巨大的市场,根据国泰君安的研报预计,到 2025 年,AI 绘画在图像内容生成领域渗透率将达到 30%,市场规模更是超 2000 亿元。

包括游戏,电影,广告厂商等等产业都在被 AI 绘图带来的效率提升所变革,未来的产业发展中,想要和 AI 脱离关系,基本不可能。

这促进了 AI 绘图应用的爆发式产出,基本上国内有训练语言大模型的公司,都会在后续推出自己的 AI 绘图产品。但产品的推出,只是第一步,AI 绘图想要产品化,需要解决的问题还有很多,比如生成图像的版权问题,生成内容的合法性问题,生成内容的多样性和可控性问题等等。

这些,都需要大模型厂商们在未来好好研究和打磨。

毕竟能抢下这块肥肉的,只会是那些真正在 AI 绘图技术上创新和满足用户需求的少部分模型。