1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

【AI图像模型系列】StableDiffusion遇上强化学习:新方法改善了无需训练数据的绘画AI模型

1987web2023-08-14人工智能AI102


AI应用基地|部落

长风 编辑

【摘要导读】* 伯克利人工智能研究(BAIR)的研究人员正在使用强化学习来进一步优化图像的生成AI模型。* 在测试中,去噪扩散策略优化(DDPO)已被证明在优化(不)压缩性、美学质量和提示图像对齐方面是有效的。* 该方法不需要训练数据,为基于AI的图像合成开辟了新的可能性,但需要进一步探索。

Stable Diffusion遇上强化学习 - 演示如何在下游任务中有效地训练图像的生成 AI 模型。?

观看更多
正在加载
    正在加载

    视频加载失败,请刷新页面再试

    刷新

    扩散模型最近已成为生成复杂高维输出的事实标准。您可能知道它们能够产生令人惊叹的 AI 艺术和超逼真的合成图像,但它们在其他应用中也取得了成功,例如药物设计和连续控制。

    扩散模型背后的关键思想是将随机噪声迭代转换为样品,例如图像或蛋白质结构。这通常是作为最大似然估计问题而激发的,其中模型被训练以生成尽可能与训练数据匹配的样本。

    在训练期间,扩散模型学习从训练数据以增量方式重建内容。研究人员现在正试图使用强化学习来微调生成AI模型以实现特定目标,例如提高图像的美学质量,从而干预这一过程。这是受到大型语言模型的微调的启发,比如OpenAI的ChatGPT。

    强化学习以获得更美观的图像?

    然而,扩散模型的大多数用例并不直接涉及匹配训练数据,而是与下游目标有关:研究小组不仅想要一个看起来像现有图像的图像,而且想要一个具有特定类型外观的图像;不仅想要一个物理上合理的药物分子,而且想要一个尽可能有效的药物分子。

    研究展示了如何使用强化学习(RL)直接在这些下游目标上训练扩散模型。他们在各种物镜上微调了Stable Diffusion,包括图像可压缩性、人类感知的美学质量和提示图像对齐。这些目标中的最后一个使用来自大型视觉语言模型的反馈来提高模型在不寻常提示下的性能,展示了如何使用强大的 AI 模型来相互改进,而无需任何人参与循环。

    降噪扩散策略优化

    当将扩散转化为RL问题时,他们只做最基本的假设:给定一个样本(例如图像),可以访问一个奖励函数,可以评估该函数以告诉我们该样本有多好。目标是让扩散模型生成最大化此奖励函数的样本。

    扩散模型通常使用从最大似然估计 (MLE) 派生的损失函数进行训练,这意味着鼓励它们生成使训练数据看起来更有可能的样本。在RL设置中,不再有训练数据,只有来自扩散模型的样本及其相关奖励。但仍然可以使用相同的 MLE 动机损失函数的一种方法是将样本视为训练数据,并通过根据其奖励对每个样本的损失进行加权来合并奖励。这提供了一种算法,他们称之为奖励加权回归(RWR),以RL文献中的现有算法命名。

    但是,这种方法存在一些问题。一是RWR不是一个特别精确的算法——它只使奖励最大化(参见Nair等人,附录A)。MLE启发的扩散损失也不是精确的,而是使用每个样本真实可能性的变分界限得出的。这意味着 RWR 通过两个近似级别最大化奖励,发现这会显着损害其性能。

    噪扩散策略优化(DDPO)的关键见解是:

    如果注意到达那里的去噪步骤的整个序列,可以更好地最大化最终样本的奖励。为此,将扩散过程重新构建为多步马尔可夫决策过程(MDP)。在MDP术语中:每个去噪步骤都是一个动作,当产生最终样本时,代理只有在每个去噪轨迹的最后一步才能获得奖励。该框架允许应用RL文献中的许多强大算法,这些算法是专门为多步MDP设计的。这些算法不使用最终样本的近似似然,而是使用每个去噪步骤的确切似然,这非常容易计算。

    研究人员选择应用策略梯度算法,因为它们易于实现,并且过去在语言模型微调方面取得了成功。这导致了DDPO的两种变体:DDPO SF ,它使用政策梯度的简单评分函数估计器,也称为REINFORCE;和 IS DDPO,它使用更强大的重要性抽样估计器。DDPO IS 是我们性能最好的算法,其实现方式紧随近端策略优化(PPO)的实现。

    使用DDPO微调Stable Diffusion

    研究小组对于上面的成果,使用DDPO微调稳定扩散v1-4 IS 。进行四个任务,每个任务由不同的奖励函数定义

    团队在四个任务上训练Stable Diffusion:

    可压缩性:使用 JPEG 算法压缩图像的难易程度如何?奖励是图像另存为 JPEG 时的负文件大小(以 kB 为单位)。

    不可压缩性:使用 JPEG 算法压缩图像的难度有多大?奖励是图像在另存为 JPEG 时的正文件大小(以 kB 为单位)。

    美学质量:图像对人眼的审美吸引力如何?奖励是LAION美学预测器的输出,这是一个根据人类偏好训练的神经网络。

    提示图像对齐:图像如何很好地表示提示中要求的内容?这个有点复杂:我们将图像输入LLaVA,要求它描述图像,然后使用BERTScore计算该描述与原始提示之间的相似性。

    由于Stable Diffusion是一个文本到图像模型,还需要选择一组提示在微调期间给出它。对于前三个任务,使用a(n) [animal]形式的简单提示。对于提示图像对齐,使用a(n)[动物][活动]形式的提示,其中活动是洗碗,下棋和骑自行车。发现,Stable Diffusion通常难以生成与这些异常场景的提示相匹配的图像,因此RL微调有很大的改进空间。

    首先,研究小组说明了DDPO在简单奖励(可压缩性,不可压缩性和美学质量)上的表现。所有图像都是使用相同的随机种子生成的。在左上象限,说明了Stable Diffusion为九种不同的动物产生的香草;所有RL微调模型都显示出明显的质差异。有趣的是,美学质量模型(右上)倾向于极简主义的黑白线条图,揭示了LAION美学预测器认为更美观的图像类型。

    首先,研究小组说明了DDPO在简单奖励(可压缩性,不可压缩性和美学质量)上的表现。所有图像都是使用相同的随机种子生成的。在左上象限,说明了Stable Diffusion为九种不同的动物产生的香草;所有RL微调模型都显示出明显的质差异。有趣的是,美学质量模型(右上)倾向于极简主义的黑白线条图,揭示了LAION美学预测器认为更美观的图像类型。

    接下来,在更复杂的提示图像对齐任务上演示 DDPO。在这里,小组展示了训练过程中的几个快照:每个系列的三个图像显示了一段时间内相同提示和随机种子的样本,第一个样本来自香草Stable Diffusion。有趣的是,该模型转向更像卡通的风格,这不是故意的。假设这是因为在预训练数据中,做类似人类活动的动物更有可能以类似卡通的风格出现,因此模型转向这种风格,以便通过利用它已经知道的东西更容易与提示保持一致。

    意外的泛化

    当使用RL微调大型语言模型时,已经发现了令人惊讶的泛化:

    例如,仅在英语中对指令遵循进行微调的模型通常会在其他语言中得到改善。发现文本到图像扩散模型也发生了同样的现象。例如,美学质量模型使用从45种常见动物列表中选择的提示进行微调。发现它不仅适用于看不见的动物,也适用于日常物品。

    小组的提示图像比对模型在训练期间使用了45只常见动物的相同列表,并且只有三种活动。发现,它不仅适用于看不见的动物,也适用于看不见的活动,甚至是两者的新组合。

    过度优化

    众所周知,对奖励函数(尤其是学习函数)进行微调会导致奖励过度优化,其中模型利用奖励函数以无用的方式实现高奖励。研究小组的设置也不例外:在所有任务中,模型最终会破坏任何有意义的图像内容以最大化奖励

    还发现LLaVA容易受到排版攻击:当优化与[n]动物形式的提示对齐时,DDPO能够通过生成松散类似于正确数字的文本来成功欺骗LLaVA。

    目前还没有防止过度优化的通用方法,我们将这个问题作为未来工作的重要领域。

    Summary 总结

    *在产生复杂的高维输出时,扩散模型是难以匹敌的。但是,到目前为止,它们大多在应用程序中取得成功,这些应用程序的目标是从大量数据(例如,图像标题对)中学习模式。研究小组发现的是一种有效训练扩散模型的方法,其方式超越了模式匹配,而不一定需要任何训练数据。可能性仅受奖励功能的质量和创造力的限制

    *在这项工作中使用DDPO的方式受到最近语言模型微调成功的启发。OpenAI的GPT模型,如稳定扩散,首先是在大量的互联网数据上进行训练的;然后用RL对它们进行微调,以产生有用的工具,如ChatGPT。通常,他们的奖励功能是从人类的偏好中学习的,但其他人最近已经想出了如何使用基于AI反馈的奖励功能来产生强大的聊天机器人。与聊天机器人制度相比,我们的实验规模较小,范围有限。但考虑到这种预训练+微调范式在语言建模中的巨大成功,在扩散模型领域似乎值得进一步追求。研究小组希望其他人可以在他们的工作基础上改进大型扩散模型,不仅用于文本到图像生成,还用于许多令人兴奋的应用,例如视频生成,音乐生成,图像编辑,蛋白质合成,机器人等

    *预训练+微调范式并不是使用DDPO的唯一方法。只要你有一个好的奖励函数,没有什么能阻止你从一开始就使用 RL 进行训练。虽然这个环境尚未被探索,但这是一个DDPO优势真正可以大放异彩的地方。纯强化学习长期以来一直应用于各种领域,从玩游戏到机器人操作,从核聚变到芯片设计。将扩散模型的强大表现力添加到组合中,有可能将RL的现有应用提升到一个新的水平,甚至发现新的应用。

    — 完 —

    「往期精彩文章」?

    AI助力短视频创作,如何快速制作一个播放量近500万的短视频?

    研究比较了ChatGPT和谷歌的搜索性能和用户体验

    GPT-4 API 正式发布,现在可供所有人使用

    「知识星球+AI进阶学习分享」

    加入中!

    ChatGPT的出现,无疑是一次巨大变革,等同于iphone的出现,会有很多十年难得一见的机会,紧跟步伐,才能把握未来。我们将持续分享ChatGPT的应用玩法和行业案例,务实,求真,拿结果!

    点这里?关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    AI科技前沿进展日日相见 ~

    AI绘画学习平台推荐:

    1、名动漫:15年专做CG艺术教育,提供原画、插画、游戏UI、CG漫画、AI绘画等课程,适合职业培训和兴趣学习实体班也能在家上课!

    2、画帮帮:是一个适合兴趣AI绘画学习的网课平台,一站式上课辅导服务。

    3、画师巴士:专业的AI绘画资源分享平台,为你提供绘画视频和图文教程、资源素材下载、AI绘画行业资讯等。

    一、AI画画

    首先,让我们来了解一下什么是AI画画。AI画画是指利用计算机技术与机器学习等方法让计算机自行创作出画作的行为。我们可以使用这些工具进行画作创作,也可以使用它们来学习如何画画。目前市面上已经有多款AI画画工具推出,而这些工具的背后便是深度学习模型的训练。

    二、训练深度学习模型

    要训练出一个好用的AI画画模型,我们需要较为丰富的训练数据。通常我们需要准备成千上万张图片,并将其中一部分用于训练模型,其他部分则留作测试。将这些图片输入到深度学习网络中进行训练,就可以得到一个可以自主创作画作的深度学习模型。

    但是,训练深度学习模型并不是一件简单的事情。需要多次调整算法参数,以及长时间的训练,才能得到一个高精度的模型。同时,为了避免模型出现过拟合现象,我们需要从数据的量和质量上下功夫,并在训练时进行交叉验证。

    三、应用实践

    AI画画工具模型如何训练

    AI画画工具模型如何训练。随着人工智能的发展,越来越多的智能化产品被加入我们的日常生活中。其中之一便是AI画画。这些工具是如何模拟人类的画画行为,制作出与人手绘

  • 下一篇
  • AI绘画学习平台推荐:

    1、名动漫:15年专做CG艺术教育,提供原画、插画、游戏UI、CG漫画、AI绘画等课程,适合职业培训和兴趣学习实体班也能在家上课!

    2、画帮帮:是一个适合兴趣AI绘画学习的网课平台,一站式上课辅导服务。

    AI画画助手怎样训练模型

    AI画画助手是近年来常见的一种技术,可以针对绘画中的一些难点进行快速处理。但是,许多人都不知道AI画画助手是怎样训练模型的。本文将介绍AI画画助手的训练模型过程