您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

AI创作利器演变全过程：人有多大胆，GAN有多高产

1987web2023-08-31人工智能AI169

赖可发自凹非寺量子位报道|公众号QbitAI

赖可发自凹非寺量子位报道 | 公众号 QbitAI

GAN自从诞生以来，一路升级，功能越来越强。

这种强大的方法走过了怎样的进化之路？

GAN的诞生和构架

GAN诞生在2014年，Ian Goodfellow和他的同事发表了名为生成性对抗网络Generative Adversarial Nets的论文。

GAN的构架从此奠定。

它由生成器generators和判别器discriminators两部分组成，以无人监督的方式运行。

生成器抓取数据并产生新的合成样本，混入原始数据中，一起送给判别器，判别器区分哪些是原始数据，哪些是后来合成的。这一过程反复进行，直到判别器无法以超过50%准确度从合成样本中分辨出真实样本。

在实践中，GAN的构架也带来一些缺陷。

首先，同时训练生成器和判别器与生俱来的不稳定性。每次参数更新后，需要优化的问题性质都会发生变化，因此模型内部的参数值会振荡或不稳定。更严重的情况是，生成器崩溃，吐出一大堆看起来同类的样本。

其次，生成器和判别器还有互相压倒的风险。如果生成器太精确，就会去利用判别器的弱点钻空子，而不是靠生成更逼真的图片来欺骗判别器；如果判别器太精确，就会阻碍生成器的收敛过程。

最后，缺乏训练数据，也会影响到GAN在语义方面的发展，

不过，英特尔AI实验室的高级主管Hanlin Tang 表示，正在出现的新兴技术可以应对这些局限。他提出了两种方法，一是将多个判别器放入一个模型中，并根据特定数据进行微调。二是喂给判别器密集的嵌入表示，或者数据的数字表示。这样它们可以有更多的信息，来从中提取。

GAN的应用：从图片到语音

1、图像

GAN最有常见和有名的应用是合成以假乱真的图像。

比如英伟达的Style GAN，可以把人物B的脸部特征迁移到人物A上。

详细介绍可以戳：

这些假脸实在太逼真了！英伟达造出新一代GAN，生成壁纸级高清大图毫无破绽

除了人脸，还可以进行其它对象之间的迁移。卡内基·梅隆大学的科学家开发了出了Recycle-GAN，它能把一个视频或照片的内容传到另一个上。

比如人脸和动画脸：

或者让一朵花模仿另一朵开的姿势：

2、视频

从图片前进一步，就是视频。Deepmind开发了DVD-GAN

原始数据集是从Youtube上收集的50万张10秒长的高分辨率视频，最终可以生成256 x 256像素视频，最长能有48帧。

3、音乐

除了可以来制作照片，GAN还可以用来作曲。

亚马逊的deepcomposer键盘的原理和GAN一致。

输入一个简单的旋律，生成器根据随机数据创建样本，判别器进行区分。两者反复改进，最终就会生成一段乐曲。

Demo试听可戳：1行代码就能跑个量子计算！AWS年度巨献：还有3种超牛硬件随你挑 | 狄拉克孙子点赞

4、语音

GAN在语音上的应用并不多，谷歌和帝国理工学院的研究者一起研发了GAN-TTS，这个系统运用GAN，将文本转为自然真实的语音。

这个系统里有10个辨别器，一部分负责判别输出的语音和文本是否一致，另外一部分只关注语音是否真实自然。

5、检测垃圾评论

想解决网上有人用机器刷虚假评论的问题。有研究者开发spamGAN来检测网上的垃圾评论。

spamFAN采用半监督学习的技术，其中将未标记的数据与少量标记的数据结合使用。

在使用10％的标记数据进行训练时，准确性达到了71％至86％。

GAN的未来：如何精细控制

尽管GAN已经取得了很多的进步，英特尔实验室的Hanlin Tang 表示，现在依旧处于早期。

GAN 仍然缺少非常精细的控制，这是一个很大的挑战。

在计算方面，也有研究人员尝试轻型模型。

IBM多模式算法和引擎小组的研究人员Youssef Mroueh正在和同事一起开发小型GAN，用来减少训练时间和内存使用。

它们想努力实现的是，如果生成器太精确，就会去利用判别器的弱点钻空子，而不是靠生成更逼真的图片来欺骗生成器；如果判别器太精确，就会阻碍生成器的收敛过程

如果不用那么多的计算量，不做那么多麻烦的事情，应该怎么改变模型。这就是他们现在努力的方向。

参考资料：https://venturebeat.com/2019/12/26/gan-generative-adversarial-network-explainer-ai-machine-learning/https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

开源了代码，就意味着每个人都可以在自己的电脑上安装部署这个项目，人人都可生成自己想要的图片。

但是即便是开源了代码，对于大部分普通人来说，还是非常难以自己搭建体验，你需要自己在电脑上部署，整个部署过程就稍微花不少时间，至少你要懂PYTHON的相关知识，以及学会如何输入正确的指令，以及不同模型的替换。还有重要一点就是————你还需要设备拥有不俗的显卡。即便网络上有很多教程，还是有一些小白搞不定。

因此烟斗汪放上一键操作的二次元stable diffusion懒人包，无需各种部署，一键直接生成使用，让小白可以体验一下AI绘画的魅力。

公众号回复绘画，获取下载地址，懒人包9个g，慎重下载哦。如果链接没了，及时联系我，会补。

懒人包教程

1、解压这9个G的压缩包，你不需要部署环境等任何麻烦的操作，直接选择显存4g/6G/显存8G以及上其中的某一个就可以了。选哪个关系到你的运行生成速度，自己看着选就行。

2、点击显存4g/6G/显存8G以及上之后，会弹出指令框，一开始会比较慢，你需要耐心等待，可能没反应的话点个回车键试试。等到最后出现图片中类似的英文之后，就自动部署完成了。最核心的就是：Running on local URL: http://127.0.0.1:7860

3、在浏览器中输入127.0.0.1:7860，你就可以打开AI绘画的界面了。

4、在prompt中输入你想要的词汇，点击generate，等待进度条完成即可生成图片。

界面操作

这个界面操作其实很复杂，要讲根本讲不完。各种参数需要调节，可以参考各种教程慢慢学习，建议上b站慢慢看。最简单的操作，其实就是输入几个你想要的英文词汇，然后点击generate，即可生成图片。

prompt咒语生成

简单来说，AI绘画最主要就是你输入文字or图片，它给你生成图片。这个输入的文字描述内容就叫做prompt，中文喜欢称之为咒语。这prompt也是最最最核心的，必须是英文（可以用中文翻译后输入英文）。这里，我也收集了一些常用的词汇以及其中文翻译，读者在回复绘画的时候，我也附带送你们啦。5400个标签的中英翻译版本，里面有你们想要的！

如果你要非常精准地生成自己想要的画面，那建议你要好好学习一下了，学成了直接可以换工作了。毕竟咒术师（prompt engineer）这份工作月薪上万轻轻松松了。其实网上资料太多了，我提供的这些只是比较简单，适合小白一键操作的，真的教程，你真的看个好几个小时···

模型训练集

我分享的这个二次元ai绘画，因为用的数据全是一些网络上画师画的二次元妹子，通过ai训练之后，找出了这些二次元图片的特征，因此能够生成类似的二次元风格图片。

如果你要生成其他风格的图片，又要换其他的模型训练集。只要有相关内容的大量数据，你就可以训练生成不同风格的图片。这个网站civitai.com有大量大佬上传的各种风格的模型训练集，甚至还有丁真风格，这位大佬口味真是独特···

一键生成心目中的二次元辣妹——本地搭建AI绘画（附下载地址）

（今天发现我的公益小破站部分KEY被封号，网上大量购买的账号出现被封号的情况，毕竟中国人都是手机接码平台注册的号码，OPENAI开始封号了···因此小破站暂停服

下一篇

匠心学堂短视频剪辑训练营，助力普通用户变身创作者

近年来，随着新媒体平台的快速发展，信息传播途径发生了巨大的变化，短视频已经成为网络信息传播的主要途径之一，多家短视频平台快速兴起，为