您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

为初学者简要介绍生成式人工智能

1987web2023-07-06人工智能AI239

过去几个月，所谓的生成式人工智能兴起，它是人工智能 (AI) 的一个子领域。像 ChatGPT 这样的工具已经成为最常用的词之一，并且正在成为许多工作中日常任务的基本工具（甚至学习编码）。

在过去的几个月里， DALL-E 、ChatGPT和生成式人工智能等词已经渗透到社交、媒体、同事聊天以及与我们世界相关的一切事物中。从字面上看，每个人都在谈论这个。

但什么是生成式人工智能？为什么它与普通人工智能有什么不同？

在本文中，我们将阐明生成式人工智能背后的总体情况。因此，如果您参与过讨论但对此主题没有明确的想法，那么本文绝对适合您。

这是一种话语解释，旨在了解生成人工智能幕后的基础知识。所以，不用担心：您不会在这里找到任何代码。只是想法和描述，这些将以非常简短的方式呈现。我们将特别关注大型语言模型和图像生成模型。

以下是您将在这里学到的内容的摘要：

目录：什么是生成式人工智能以及它与传统人工智能有何不同？大型语言模型图像生成

什么是生成式人工智能？它与传统人工智能有何不同？

生成式人工智能是人工智能的一个子领域，涉及创建可以生成图像、文本、代码和音乐等新数据的算法。

生成式人工智能与传统人工智能的最大区别在于，前者根据训练数据生成新数据。此外，它还可以处理传统人工智能无法处理的数据类型。

让我们从技术上更详细地说一下：

传统人工智能可以被定义为歧视性人工智能。事实上，在这种情况下，我们训练机器学习模型，以便它们可以对新的、看不见的数据进行预测或分类。这些机器学习模型只能处理数字，有时也处理文本（例如，在自然语言处理的情况下）。
在生成式人工智能中，我们训练一个机器学习模型，它会创建一个与其训练数据相似的输出。这些类型的机器学习模型可以处理不同类型的数据，例如数字、文本、图像和音频。

让我们可视化这些过程：

传统人工智能背后的流程

因此，在传统人工智能中，我们训练机器学习模型来从数据中学习。然后，我们向它提供新的和未见过的数据，它可以进行区分、做出预测或分类。

关于所提供的示例，我们训练了一个机器学习模型来从图像中识别狗。然后，我们向经过训练的机器学习模型提供新的和未见过的狗的图片，它将能够对这些新图像是否代表狗进行分类。

在分类问题的情况下，这是深度学习算法的典型任务。

生成人工智能背后的过程

相反，在生成人工智能的情况下，我们使用大量数据，使用来自各种来源的数据来训练机器学习模型。然后，由于提示（用户插入的自然语言查询），模型为我们提供了与其训练数据类似的输出。

举个例子，我们的模型已经接受了大量（文本）数据的训练，其中包括解释狗是什么。然后，如果用户查询模型询问狗是什么，模型将以自然语言描述狗是什么。

这是 ChatGPT 等工具执行的典型任务。

现在，让我们看看一些类型的生成人工智能模型。

大型语言模型

让我们从大型语言模型 (LLM) 开始深入研究各种生成式 AI 子领域。法学硕士（来自维基百科）是：

一种计算机化语言模型，由具有许多参数（数千万到数十亿）的人工神经网络组成，使用自监督学习或半监督学习对大量未标记文本进行训练。
尽管大语言模型一词没有正式定义，但它通常指的是具有数百万甚至数十亿参数的深度学习模型，这些模型已经在大型语料库上预训练。

因此，LLM 是深度学习 (DL) 模型（又名神经网络），在大量文本上使用数百万个参数进行训练（这就是我们称之为大型的原因），可用于解决一些语言问题，例如：

文本分类
问答
文档摘要
文本生成

因此，标准 ML 模型之间的另一个重要区别是，在这种情况下，我们可以训练可用于不同任务的 DL 算法。

让我更好地解释一下。

如果我们需要开发一个能够像我们之前看到的那样识别图像中的狗的系统，我们需要训练深度学习算法来解决分类任务，即：告诉我们新的、未见过的图像是否代表狗。而已。

相反，培训法学硕士可以帮助我们完成上面描述的所有任务。因此，这也证明了训练法学硕士（需要 PB 级数据！）所需的计算能力（和金钱！）。

众所周知，LLM 是通过提示来被用户查询的。现在，我们必须找出提示设计和提示工程之间的区别：

及时设计。这是创建特别适合系统正在执行的特定任务的提示的艺术。例如，如果我们想要求法学硕士将文本从英语翻译成意大利语，我们必须用英语编写一个特定的提示，要求模型将我们粘贴的文本翻译成意大利语。
及时工程。这是创建提示以提高法学硕士表现的过程。这意味着使用我们的领域知识向提示添加详细信息，例如特定关键字、特定上下文和示例，以及必要时所需的输出。

当然，当我们进行提示时，有时我们会混合使用两者。例如，我们可能需要将某个特定知识领域（例如力学）感兴趣的从英语翻译成意大利语。

例如，提示可能是：将以下内容翻译成意大利语：

梁承受法向应力。

考虑到我们处于力学领域，所以‘法向应力’一定与之相关。

因为，你知道：正常和压力可能会被模型误解（甚至被人类误解！）。

LLM 的三种类型

LLM 分为三种类型：

通用语言模型。它们能够根据训练数据中的语言来预测单词（或短语）。例如，考虑一下您的电子邮件自动完成功能来了解这种类型。
指令调整模型。此类模型经过训练可以预测对输入中给出的指令的响应。总结给定的文本就是一个典型的例子。
对话调整模型。这些被训练为使用随后的响应与用户进行对话。人工智能驱动的聊天机器人就是一个典型的例子。

无论如何，请考虑实际分布的模型具有混合特征。或者，至少，他们可以执行不止一种类型的典型操作。

例如，如果我们想到 ChatGPT，我们可以明确地说：

在给定输入的情况下，可以预测对指令的响应。事实上，例如，它可以总结文本，对我们通过提示提供的某个论点给出见解，等等……因此，它具有指令调整模型等功能。
接受过与用户对话的培训。这非常清楚，因为它会根据后续提示进行操作，直到我们对其答案感到满意为止。因此，它还具有对话调整模型等功能。

图像生成

图像生成已经存在相当长一段时间了，这与人们可能认为的相反。

不管怎样，最近它越来越受欢迎，特别是像DALL-E或稳定扩散这样的工具已经清除了它们的使用，使得这项技术可以为全世界的大众所使用。

我们可以说图像生成可以分为四类：

变分自动编码器（VAE）。变分自动编码器是概率生成模型，仅需要神经网络作为其整体结构的一部分。用操作的话来说，它们将图像编码为压缩尺寸并将其解码为原始尺寸。在此过程中，他们了解数据的分布。
生成对抗模型（GAN）。这些通常是最知名的，至少是在生成人工智能领域引起共鸣的一个词。GAN 是一类 ML 框架，其中两个神经网络相互对抗，一个的收益就是另一个的损失。这意味着一个神经网络创建图像，而另一个神经网络预测图像是真还是假。
自回归模型。在统计学中，自回归模型是随机过程的表示。在生成图像的背景下，此类模型通过将图像视为像素序列来生成图像。
扩散模型。扩散模型受到热力学的启发，绝对是图像生成子领域中最有前途和最有趣的模型类型。

这是扩散模型背后的过程：

正向分配过程。我们有一个初始的迭代过程，其中图像的结构在数据分布中被破坏。简单来说，就像我们迭代地向图像添加噪声，直到所有像素都变成纯噪声并且图像无法识别（人眼）。
逆扩散过程。然后，有一个反向扩散过程，这就是实际的学习过程：恢复数据的结构。这就像我们的模型学习如何对像素进行去噪以重新创建图像。