为初学者简要介绍生成式人工智能
过去几个月,所谓的生成式人工智能兴起,它是人工智能 (AI) 的一个子领域。像 ChatGPT 这样的工具已经成为最常用的词之一,并且正在成为许多工作中日常任务的基本工具(甚至学习编码)。
在过去的几个月里, DALL-E 、ChatGPT和生成式人工智能等词已经渗透到社交、媒体、同事聊天以及与我们世界相关的一切事物中。从字面上看,每个人都在谈论这个。
但什么是生成式人工智能?为什么它与普通人工智能有什么不同?
在本文中,我们将阐明生成式人工智能背后的总体情况。因此,如果您参与过讨论但对此主题没有明确的想法,那么本文绝对适合您。
这是一种话语解释,旨在了解生成人工智能幕后的基础知识。所以,不用担心:您不会在这里找到任何代码。只是想法和描述,这些将以非常简短的方式呈现。我们将特别关注大型语言模型和图像生成模型。
以下是您将在这里学到的内容的摘要:
目录:什么是生成式人工智能以及它与传统人工智能有何不同?大型语言模型图像生成
什么是生成式人工智能?它与传统人工智能有何不同?
生成式人工智能是人工智能的一个子领域,涉及创建可以生成图像、文本、代码和音乐等新数据的算法。
生成式人工智能与传统人工智能的最大区别在于,前者根据训练数据生成新数据。此外,它还可以处理传统人工智能无法处理的数据类型。
让我们从技术上更详细地说一下:
- 传统人工智能可以被定义为歧视性人工智能。事实上,在这种情况下,我们训练机器学习模型,以便它们可以对新的、看不见的数据进行预测或分类。这些机器学习模型只能处理数字,有时也处理文本(例如,在自然语言处理的情况下)。
- 在生成式人工智能中,我们训练一个机器学习模型,它会创建一个与其训练数据相似的输出。这些类型的机器学习模型可以处理不同类型的数据,例如数字、文本、图像和音频。
让我们可视化这些过程:
传统人工智能背后的流程
因此,在传统人工智能中,我们训练机器学习模型来从数据中学习。然后,我们向它提供新的和未见过的数据,它可以进行区分、做出预测或分类。
关于所提供的示例,我们训练了一个机器学习模型来从图像中识别狗。然后,我们向经过训练的机器学习模型提供新的和未见过的狗的图片,它将能够对这些新图像是否代表狗进行分类。
在分类问题的情况下,这是深度学习算法的典型任务。
生成人工智能背后的过程
相反,在生成人工智能的情况下,我们使用大量数据,使用来自各种来源的数据来训练机器学习模型。然后,由于提示(用户插入的自然语言查询),模型为我们提供了与其训练数据类似的输出。
举个例子,我们的模型已经接受了大量(文本)数据的训练,其中包括解释狗是什么。然后,如果用户查询模型询问狗是什么,模型将以自然语言描述狗是什么。
这是 ChatGPT 等工具执行的典型任务。
现在,让我们看看一些类型的生成人工智能模型。
大型语言模型
让我们从大型语言模型 (LLM) 开始深入研究各种生成式 AI 子领域。法学硕士(来自维基百科)是:
一种计算机化语言模型,由具有许多参数(数千万到数十亿)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。
尽管大语言模型一词没有正式定义,但它通常指的是具有数百万甚至数十亿参数的深度学习模型,这些模型已经在大型语料库上预训练。
因此,LLM 是深度学习 (DL) 模型(又名神经网络),在大量文本上使用数百万个参数进行训练(这就是我们称之为大型的原因),可用于解决一些语言问题,例如:
- 文本分类
- 问答
- 文档摘要
- 文本生成
因此,标准 ML 模型之间的另一个重要区别是,在这种情况下,我们可以训练可用于不同任务的 DL 算法。
让我更好地解释一下。
如果我们需要开发一个能够像我们之前看到的那样识别图像中的狗的系统,我们需要训练深度学习算法来解决分类任务,即:告诉我们新的、未见过的图像是否代表狗。而已。
相反,培训法学硕士可以帮助我们完成上面描述的所有任务。因此,这也证明了训练法学硕士(需要 PB 级数据!)所需的计算能力(和金钱!)。
众所周知,LLM 是通过提示来被用户查询的。现在,我们必须找出提示设计和提示工程之间的区别:
- 及时设计。这是创建特别适合系统正在执行的特定任务的提示的艺术。例如,如果我们想要求法学硕士将文本从英语翻译成意大利语,我们必须用英语编写一个特定的提示,要求模型将我们粘贴的文本翻译成意大利语。
- 及时工程。这是创建提示以提高法学硕士表现的过程。这意味着使用我们的领域知识向提示添加详细信息,例如特定关键字、特定上下文和示例,以及必要时所需的输出。
当然,当我们进行提示时,有时我们会混合使用两者。例如,我们可能需要将某个特定知识领域(例如力学)感兴趣的从英语翻译成意大利语。
例如,提示可能是:将以下内容翻译成意大利语:
梁承受法向应力。
考虑到我们处于力学领域,所以‘法向应力’一定与之相关。
因为,你知道:正常和压力可能会被模型误解(甚至被人类误解!)。
LLM 的三种类型
LLM 分为三种类型:
- 通用语言模型。它们能够根据训练数据中的语言来预测单词(或短语)。例如,考虑一下您的电子邮件自动完成功能来了解这种类型。
- 指令调整模型。此类模型经过训练可以预测对输入中给出的指令的响应。总结给定的文本就是一个典型的例子。
- 对话调整模型。这些被训练为使用随后的响应与用户进行对话。人工智能驱动的聊天机器人就是一个典型的例子。
无论如何,请考虑实际分布的模型具有混合特征。或者,至少,他们可以执行不止一种类型的典型操作。
例如,如果我们想到 ChatGPT,我们可以明确地说:
- 在给定输入的情况下,可以预测对指令的响应。事实上,例如,它可以总结文本,对我们通过提示提供的某个论点给出见解,等等……因此,它具有指令调整模型等功能。
- 接受过与用户对话的培训。这非常清楚,因为它会根据后续提示进行操作,直到我们对其答案感到满意为止。因此,它还具有对话调整模型等功能。
图像生成
图像生成已经存在相当长一段时间了,这与人们可能认为的相反。
不管怎样,最近它越来越受欢迎,特别是像DALL-E或稳定扩散这样的工具已经清除了它们的使用,使得这项技术可以为全世界的大众所使用。
我们可以说图像生成可以分为四类:
- 变分自动编码器(VAE)。变分自动编码器是概率生成模型,仅需要神经网络作为其整体结构的一部分。用操作的话来说,它们将图像编码为压缩尺寸并将其解码为原始尺寸。在此过程中,他们了解数据的分布。
- 生成对抗模型(GAN)。这些通常是最知名的,至少是在生成人工智能领域引起共鸣的一个词。GAN 是一类 ML 框架,其中两个神经网络相互对抗,一个的收益就是另一个的损失。这意味着一个神经网络创建图像,而另一个神经网络预测图像是真还是假。
- 自回归模型。在统计学中,自回归模型是随机过程的表示。在生成图像的背景下,此类模型通过将图像视为像素序列来生成图像。
- 扩散模型。扩散模型受到热力学的启发,绝对是图像生成子领域中最有前途和最有趣的模型类型。
这是扩散模型背后的过程:
- 正向分配过程。我们有一个初始的迭代过程,其中图像的结构在数据分布中被破坏。简单来说,就像我们迭代地向图像添加噪声,直到所有像素都变成纯噪声并且图像无法识别(人眼)。
- 逆扩散过程。然后,有一个反向扩散过程,这就是实际的学习过程:恢复数据的结构。这就像我们的模型学习如何对像素进行去噪以重新创建图像。
连接一切的力量
如果你一直保持注意力到现在,你的脑海中自然会出现一个问题:好的,费德里科,很清楚了。 但我遗漏了一些东西:当我使用DALL-E时,我插入一个提示并输出一个图像:我们还没有讨论过这一点,不是吗?。
不,我们没有。
上面我们简单描述了最有前途(也是目前最常用)的图像生成模型,但缺少的部分是提示。
事实上,我们已经讨论了它们如何在高层次上工作。含义:我们对他们的学习过程如何进行进行了简短的解释。
但当这些模型与法学硕士结合起来时,它们的真正威力就会显现出来。事实上,这种耦合使我们能够结合即时工程的力量来向我们的模型询问输出。
换句话说:我们结合了使用自然语言作为模型输入的可能性,这些模型可以真正理解它并可以根据它生成图像。
这不是超能力吗?!!
结论
总之,我们可以说生成式人工智能是人工智能的一个子领域,它可以生成类似于训练数据的新数据。
一方面,法学硕士可以根据训练数据生成文本,图像生成模型可以根据训练图像生成新图像,但生成式人工智能的真正力量,至少在图像方面,依赖于法学硕士的结合和图像生成模型。这使我们能够根据提示创建图像作为输入。
保持好奇,每天学习
IDC 数据显示:2021 年全球人工智能 IT 投资额为 929.5 亿美元,预计 2026 年将增至 3014.3 亿美元,复合 年增长率约 26.5%。2026 年中国市场 AI 投资预计将达 266.9 亿美元,约占全球投资 8.9%,居世界第二位,复合 年增长率约 21.7%。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的 50%以上。IDC 预测,2026 年,中国在人工智能硬件市场的 IT 投资将超过 150 亿美元,接近美国人工智能硬件的市场规模,五年复合年增长率 16.5%。服务器作为硬件市场的主要组成部分,预计将占总投入的 80%以上。 人工智能的发展将对算力提出更高要求,算力网络基础设施需求有望持续提升。根据中国信通院数据,2021 年全球计算设备算力总规模达到 615EFlops(每秒浮点运算次数),同比增长 44%,其中基础算力规模为 369EFlops, 智能算力规模为 232EFlops,超算算力规模为 14EFlops,预计 2030 年全球算力规模将达到 56ZFlps,平均年均增 长 65%。 我国智能算力规模持续高速增长,2021 年智能算力规模已经超过通用算力。根据中国信通院数据,我国计 算设备算力总规模达到 202EFlops,全球占比约为 33%,保持 50%以上的高速增长态势,增速高于全球,其中智 能算力增长迅速,增速为 85%,在我国算力中的占比超过 50%。
1.3AI 算力产业链涉及环节较多,行业需求有望全面提升
AI 算力产业链涉及环节较多,按照算力基础设施构成来看,包括 AI 芯片及服务器、交换机及光模块、IDC 机房及上游产业链等。其中,随着训练和推理需求提升,AI 芯片及服务器需求将率先放量;AI 算力对数据中心 内部数据流量较大,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长;IDC 也有 望进入需求释放阶段,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。
1、AI 芯片和服务器需求将率先放量
根据测算,2023 年-2027 年全球大模型训练端峰值算力需求量的年复合增长率为 78.0%。2023 年全球大模 型训练端所需全部算力换算成的 A100 总量超过 200 万张。从云端推理所需算力角度测算,2023 年-2027 年,全 球大模型云端推理的峰值算力需求量的年复合增长率为 113%,如果考虑边缘端 AI 推理的应用,推理端算力规 模将进一步扩大。
2、AI 算力改变数据中心内部网络架构,光模块和交换机速率及需求提升
AI 数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一,光模块速率及数 量均有显著提升,交换机的端口数及端口速率也有相应的增长。 800G 光模块 2022 年底开始小批量出货,2023 年需求主要来自于英伟达和谷歌,2024 年有望大规模出货, 并存在时间前移的可能。从交换机的电口来看,SerDes 通道的速率每四年翻倍,数量每两年翻倍,交换机的带 宽每两年翻倍;从光口来看,光模块每 4 年升级一次,实际出货时间是晚于电口 SerDes 及交换机芯片新版发布 的时间。2019 年作为 100G 光模块升级的时间点,市场分成了 200G 和 400G 两条升级路径。但是在 2023 年这 个时间点,市场下一代高速率光模块均指向 800G 光模块,叠加 AIGC 带来的算力和模型竞赛,我们预计北美各 大云厂商和相关科技巨头均有望在 2024 年大量采购 800G 光模块,同时 2023 年也可能提前采购。
3、IDC 需求有望释放,AI 服务器高功率密度或将推升液冷渗透率
IDC 作为算力基础设施产业链的关键环节,也有望进入需求释放阶段。在过去两年半,受多重因素影响下, 云计算需求景气度下行,但 IDC 建设与供给未出现明显放缓,2021 年和 2022 年分别新增机柜数量 120 万架和 150 万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好),部分地区上电率情况一般。所以 IDC 公司 2022 年业绩普遍承压。随着平台经济发展恢复以及 AI 等拉动,IDC 需求有望逐步释放,叠加 2023 新增供 给量有望较 2022 年减少(例如三大运营商 2022 年新增 IDC 机柜 15.6 万架,2023 年计划新增 11.4 万架)。 人工智能大模型训练和推理运算所用的 GPU 服务器的功率密度将大幅提升,以英伟达 DGX A100 服务器为 例,其单机最大功率约可以达到 6.5kW,大幅超过单台普通 CPU 服务器 500w 左右的功率水平。在此情况下, 一方面需要新建超大功率的机柜,另一方面为降低 PUE,预计液冷温控渗透率将快速提升,海底数据中心也可 能将迎来产业化的关键节点。
二、AI 芯片需求爆发式增长
2.1 AI 大规模落地应用对 AI 芯片性能、数量提出全方位要求
从广义上讲,能运行 AI 算法的芯片都叫 AI 芯片。CPU、GPU、FPGA、NPU、ASIC 都能执行 AI 算法, 但在执行效率层面上有巨大的差异。CPU 可以快速执行复杂的数学计算,但同时执行多项任务时,CPU 性能开 始下降,目前行业内基本确认 CPU 不适用于 AI 计算。 CPU+xPU 的异构方案成为大算力场景标配,GPU 为应用最广泛的 AI 芯片。目前业内广泛认同的 AI 芯片 类型包括 GPU、FPGA、NPU 等。由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPU、FPGA 等芯片都是作为 CPU 的加速器而存在,因此目前主流的 AI 计算系统均为 CPU+xPU 的异构并行。CPU+GPU 是目前最流行的异构计算系统,在 HPC、图形图像处理以及 AI 训练/推理等场景为主流选择。IDC 数据显示,2021 年中国 AI 芯片市场中,GPU 市占率为 89%。
人工智能行业深度报告:算力大时代,AI算力产业链全景梳理
(报告出品方:中信建投证券)