1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

AI绘图模型可以准确画出手指了?我们试了试

1987web2023-08-30人工智能AI113
继GPT4发布并引发广泛讨论后,3月16日知名AI绘画网站Midjourney(暂无中文名,直译中途)宣布公测其V5算法模型。3月19日,一幅由MidjourneyV5画的一对中国情侣图像引起了网友

继GPT4发布并引发广泛讨论后,3月16日知名AI绘画网站Midjourney(暂无中文名,直译中途)宣布公测其V5算法模型。3月19日,一幅由Midjourney V5画的一对中国情侣图像引起了网友关注,该图片不仅风格写实,且克服了此前AI绘图模型最为致命的缺点:不会画手。

3月21日,新京报贝壳财经购买了Midjourney会员并尝试使用V5算法模型(以下简称V5)生成图片,发现相比此前AI绘图模型总是在手指数量上犯的错误,V5确实能够大概率生成准确的手指,相比去年的AI绘图模型有了长足进步,不过若放大观看,个别生成图片的手指细节仍有缺憾。

测试:15张图片12张手部准确2张轻微瑕疵

3月21日,新京报贝壳财经参考此前流行网络的中国情侣关键词使用V5生成了16张图片,其中除一张图片画中主人公背对镜头无法看见手部外,其余15张图片均可以清晰看见至少一人的手部图像。据统计,15张图片中有12张图手部正常,3张图手部有瑕疵,但相比去年AI绘图模型经常将手部画成畸形相比,进步巨大。

贝壳财经使用V5生成的中国情侣图片,可以看出图片非常接近相片质感,但女子的右手仍有轻微瑕疵。

当贝壳财经更改中国情侣图片生成的关键词,如将年代从1990年更改为2020年,或给中国情侣加上拿报纸的动作时,V5也将这些元素完美地添加到了图片中,不过当把背景坐在屋顶改为坐在新京报办公楼屋顶后,图片看上去变化不大,这或许是因为V5并不知道新京报办公楼屋顶与普通屋顶有什么区别。

贝壳财经使用V5,并将中国情侣的关键词添加2020年代、报纸、新京报办公楼屋顶等元素后生成的图片。

浏览Midjourney网站中其他网友使用关键词生成的人物图像发现,V5对手指的处理确实在绝大多数情况下没有出错,特别是手指根数上,去年AI绘图模型中常见的多根手指几乎不见了,不过一些图片对手部的处理仍然略显粗糙,如下图中网友vanessalai在Midjourney社区中晒出了其生成的马斯克下国际象棋图片,该图片人物手指显得过于短粗且右手无名指没有指甲。

网友在Midjourney网站中生成的马斯克下国际象棋图片,手指细节并不完美。

目前,Midjourney在前期有限次数的免费试用后,就必须充值会员使用,会员类型包括基本、标准和Pro会员三种,其中基本会员每月10美元,有200次生成图片的机会,标准会员每月30美元,不限次生成,Pro会员则有更快的生成速度和并发快速作业等功能。

充值会员后,若想使用V5,只需在生成图片的关键词后缀加上- v 5即可。贝壳财经发现,如果不对生成的图片加上任何风格要求,V5会更加倾向于生成写实类照片。

AI研究员尼尔森(Lars Nielsen)表示,V5对四肢和手指的渲染近乎完美,并表示这是迈向图像现实主义的重要一步。他晒出了同一个关键词经过V3、V4、V5三种不同算法生成图像后的对比,可以明显看出对手指的生成一步一步走向了真实。

尼尔森晒出的同一个关键词经过V3、V4、V5三种不同算法生成图像后的对比(来源:尼尔森社交账号)。

V5版本仅为初级测试 未来还将升级

有AI从业者对贝壳财经表示,要想让AI精准识别手部图像,比较有效的方法是雇佣海量人员给图片里的人手打上标记,标出手掌、拇指、食指等,再重复机器学习过程,此前AI绘图模型之所以在画手时总是出错,是因为相比脸部图片,手部往往更加模糊,数据也较为缺乏,所以此次V5算法模型的迭代或许是使用了海量加标注的手部数据。

外国行业观察网站齿轮发表评论称,V5让Midjourney社区不再有六指人,而且其拥有更多有关如何处理四肢的知识,V5更擅长生成面部和眼睛,且在细节上更加逼真。

Midjourney在官网表示,V5是Midjourney在人工智能集群上训练的第二个算法模型,已经开发了5个月。其使用了明显不同的神经结构和新的美学技术。V5相比过去其他算法具备的新功能包括:风格范围更广,对提示反应更灵敏;更高的图像质量(分辨率提高2倍)改善了动态范围;更详细的图像,更加精准的细节,减少不需要的文本等。

不过,日益逼近照片风格的AI图像也招致了更多的担忧。新京报贝壳财经汇总发现,有不少声音认为随着AI绘图的发展,图像证据甚至视频证据将有更多被伪造的可能,此外衍生的另一种怀疑论是——在未来,一些真实的证据是否会被质疑是AI仿制的?

网友在Midjourney网站中生成的图片,画面质感与细节已经和真实照片近似。

贝壳财经了解到,目前AI绘画的出现已经导致了一些画师岗位被AI取代,3月19日,光线传媒董事长王长田发布内部信称其动画制作团队已经开始探索AI生成角色、AI动画表演、AI特效等的研究;创新工场董事长李开复3月19日也宣布筹组名为AI2.0的项目,他认为在AI2.0发展的第一个阶段需要人机协同,绘图软件不再需要用户动手,通过文字描述就可以实现,人类仍与AI保持协作,筛选和纠正AI创作的内容,避免谬误和灾难发生,而此后AI将逐渐实现自动化。

截至2023年3月21日,Midjourney已有1393.8万名注册用户,而2022年10月初该网站的注册用户为317万,约5个月时间里用户数量增长了339.68%。

Midjourney在社区公告中表示,V5目前只是初步测试,日后还将被大幅修改,不能确定当前版本在未来一定存在,V5并不是最后一步,但我们希望大家都能感受到人类集体想象力的力量所带来的深刻和难以理解的进步。请以喜悦、好奇、尊重和有责任心的态度来使用这不可思议的力量。

联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经 罗亦丹

编辑 白华兵 校对 柳宝庆

1. 使用 GAN

GAN(Generative Adversarial Networks)是一种深度学习网络,可以生成具有艺术价值的图像。GAN 由两部分组成:生成器和判别器。生成器会生成一些图像,而判别器会尝试区分这些图像是由生成器还是由人类创作的。这个过程会不断迭代,直到生成器可以生成高质量的图像。

2. 使用图像编辑工具

很多图像编辑工具目前也提供了关于AI绘画的功能,例如图片编辑助手等。这是一个专业的图像编辑软件,拥有丰富的功能,通过输入对图片的文字描述来生成绘画作品,也可以选择成熟的模板,通过修改里面的描述来生成类似的作品。

3. 使用风格转移

风格转移是一种技术,可以将一个图像的风格应用到另一个图像上。这种技术可以用来生成具有独特风格的艺术品。使用风格转移,你可以将一张照片或绘画作品的风格应用到你自己的图像上,从而创建出具有独特风格的艺术品。