国内ChatGPT-3还没完明白,GPT-4已经快要发布了
GPT-4 发布的日子越来越近了。
GPT-3 于 2020 年 5 月发布,也就是将近两年前。它是在 GPT-2 发布一年后发布的——它也是在原始 GPT 论文发表一年后发布的。如果这种趋势在各个版本中都存在,那么 GPT-4 应该已经存在了。但是 OpenAI 的 CEO Sam Altman 几个月前说 GPT-4 即将到来。目前的估计预测发布日期在 2023 年的某个时候,可能在 7 月至 8 月左右。
OpenAI 的 CEO Sam Altman
尽管是最受期待的 AI 新闻之一,但关于 GPT-4 的公开信息却很少:它会是什么样子、它的特性或它的能力。
Altman 去年进行了一次问答,并就 OpenAI 对 GPT-4 的想法给出了一些提示。他肯定地说的一点是,GPT-4不会有100T的参数,就像我在之前的文章中假设的那样(这么大的模型还得等等)。
OpenAI 透露有关 GPT-4 的信息已经有一段时间了。然而,一些在 AI 领域(尤其是 NLP)中受到巨大关注的新趋势可能会为我们提供有关 GPT-4 的线索。鉴于这些方法的成功和 OpenAI 的参与,可以从 Altman 所说的内容中做出一些可接受的预测。当然,这些超越了众所周知且令人厌烦的使模型变得更大的做法。
鉴于从 OpenAI 和 Sam Altman 那里获得的信息,以及语言 AI 的当前趋势和最先进的技术,以下是我对 GPT-4 的预测。(明确地或根据上下文,我会弄清楚哪些是猜测,哪些是确定的。)
模型尺寸:GPT-4 不会超大
GPT-4 不会是最大的语言模型。Altman 说它不会比 GPT-3 大很多。与前几代神经网络相比,该模型肯定会很大,但大小并不是它的显着特征。它可能介于 GPT-3 和Gopher (175B-280B) 之间。
这个决定是有充分理由的。
Megatron-Turing NLG由 Nvidia 和 Microsoft 去年构建,在 530B 参数下保持着最大密集神经网络的称号——已经比 GPT-3 大 3 倍——直到最近(谷歌的 PaLM 现在以 540B 保持着这个称号)。但值得注意的是,在 MT-NLG 之后出现的一些较小的模型达到了更高的性能水平。
更大≠更好。
更好的更小模型的存在有两个含义。
首先,公司已经意识到使用模型大小作为提高性能的代理并不是唯一的方法——也不是最好的方法。2020 年,OpenAI 的Jared Kaplan 及其同事得出结论,当计算预算的增加主要用于扩展参数数量时,性能提高最多,遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind 和其他开发语言模型的公司从表面上接受了这些指导方针。
但是 MT-NLG,尽管它很大,但在性能方面并不是最好的。事实上,它在任何单一类别基准测试中都不是最好的。较小的模型,如 Gopher (280B) 或Chinchilla (70B) ——仅占其大小的一小部分——在任务方面比 MT-NLG 好得多。
很明显,模型大小并不是实现更好的语言理解的唯一因素,这让我想到了第二个含义。
公司开始拒绝越大越好的教条。拥有更多参数只是可以提高性能的众多因素之一。附带损害(例如碳足迹、计算成本或进入壁垒)使其成为最糟糕的考虑因素之一——尽管实施起来非常简单。当公司可以从较小的模型中获得类似或更好的结果时,他们在构建庞大模型之前会三思而后行。
Altman 表示,他们不再专注于让模型变得非常大,而是专注于充分利用较小的模型。OpenAI 研究人员是缩放假说的早期倡导者,但现在可能已经意识到其他未探索的路径可以导致改进模型。
GPT-4 不会比 GPT-3 大很多,这就是原因。OpenAI 会将注意力转移到其他方面——比如数据、算法、参数化或对齐——这些方面可以更干净地带来重大改进。我们必须拭目以待,才能看到 100T 参数模型的功能。
最优性:充分利用 GPT-4
在优化方面,语言模型受到一个关键限制。训练如此昂贵,以至于公司不得不在准确性和成本之间做出权衡。这通常会导致模型明显未优化。
尽管在其他情况下会导致重新训练的一些错误,GPT-3 训练次数有限。由于无法承受的成本,OpenAI 决定不这样做,从而阻止研究人员为模型找到最佳超参数集(例如学习率、批量大小、序列长度等)。
高培训成本的另一个后果是模型行为的分析受到限制。当 Kaplan 的团队得出结论,模型大小是提高性能最相关的变量时,他们并没有考虑训练标记的数量——即模型被输入的数据量。这样做需要大量的计算资源。
科技公司遵循卡普兰的结论,因为这是他们拥有的最好的结论。具有讽刺意味的是,谷歌、微软、Facebook 和其他公司在越来越大的模型上浪费了数百万美元。
现在,以 DeepMind 和 OpenAI 为首的公司正在探索其他方法。他们试图找到最佳模型,而不仅仅是更大的模型。
最优参数化
他们发现了一种新的参数化 (μP),其中小型模型的最佳超参数也是同一系列中较大模型的最佳超参数。μP 允许他们以极小的训练成本优化任意大小的模型。然后可以将超参数几乎无成本地转移到更大的模型。
最优计算模型
几周前,DeepMind 重新审视了 Kaplan 的发现并意识到,与人们所相信的相反,训练令牌的数量对性能的影响与模型大小一样大。他们的结论是,随着可用的计算预算越来越多,应该将其平均分配给缩放参数和数据。他们通过训练Chinchilla证明了他们的假设,Chinchilla 是一个 70B 模型(比 Gopher,之前的 SOTA 小 4 倍),其数据量是 GPT-3 以来所有大型语言模型的 4 倍(1.4T 令牌——来自典型的 300B)。
结果一目了然。Chinchilla 在许多语言基准测试中一致且显着地优于 Gopher、GPT-3、MT-NLG 和所有其他语言模型:当前模型训练不足且规模过大。
鉴于 GPT-4 将略大于 GPT-3,它需要计算最佳的训练代币数量(根据 DeepMind 的发现)将约为 5 万亿——比当前数据集高一个数量级。他们训练模型以达到最小训练损失所需的 FLOP 数量将比他们用于 GPT-3(使用 Gopher 的计算预算作为代理)大 10-20 倍左右。
当 Altman 在问答中说 GPT-4 将使用比 GPT-3 更多的计算时,他可能已经提到了这一点。
OpenAI 肯定会在 GPT-4 中实施与最优性相关的见解——尽管在何种程度上是不可预测的,因为他们的预算是未知的。可以肯定的是,他们将专注于优化模型大小之外的其他变量。找到最佳超参数集以及最佳计算模型大小和参数数量可能会在所有基准测试中带来令人难以置信的改进。如果将这些方法组合到一个模型中,所有语言模型的预测都会失败。
Altman 还表示,如果不把模型做大,人们不会相信模型会有多好。他可能是在暗示扩大规模的努力暂时结束了。
多模式:GPT-4 将是纯文本模型
深度学习的未来是多模态模型。人脑是多感官的,因为我们生活在一个多模态的世界中。一次以一种模式感知世界极大地限制了 AI 导航或理解世界的能力。
然而,良好的多模态模型比良好的纯语言或纯视觉模型更难构建。将视觉和文本信息组合成一个表示是一项艰巨的任务。我们对我们的大脑如何做到这一点的概念非常有限(并不是说深度学习社区正在考虑认知科学对大脑结构和功能的见解),所以我们不知道如何在神经网络中实现它。
Altman 在问答中表示,GPT-4 不会是多模态的(像 DALL·E 或 MUM),而是纯文本模型。我的猜测是他们正试图达到语言模型的极限,在转向下一代多模态 AI 之前调整模型和数据集大小等因素。
稀疏性:GPT-4 将是一个密集模型
利用模型不同部分的条件计算来处理不同类型输入的稀疏模型最近取得了巨大成功。这些模型可以轻松扩展到 1T 参数标记之外,而不会受到高计算成本的影响,从而在模型大小和计算预算之间创建看似正交的关系。然而,MoE 方法的好处在非常大的模型上会减弱。
鉴于 OpenAI 专注于密集语言模型的历史,预计 GPT-4 也将是一个密集模型是合理的。鉴于 Altman 表示 GPT-4 不会比 GPT-3 大很多,我们可以得出结论,稀疏性不是 OpenAI 的选择——至少目前是这样。
稀疏性与多模态类似,很可能会主导未来几代神经网络,因为我们的大脑——AI 的灵感来源——严重依赖于稀疏处理。
对齐:GPT-4 将比 GPT-3 更对齐
OpenAI 已经付出了很多努力来解决 AI 对齐问题:如何让语言模型遵循我们的意图并坚持我们的价值观——无论这意味着什么。这不仅是数学上的难题(即我们如何让 AI 准确理解我们想要什么?),而且也是哲学上的难题(即没有一种通用的方法可以使 AI 与人类保持一致,因为不同群体的人类价值观的可变性是巨大的——而且经常是冲突的)。
然而,他们首次尝试使用 InstructGPT,这是一种更新的 GPT-3,经过人类反馈训练以学习遵循指令(无论这些指令是否出于善意尚未纳入模型)。
InstructGPT 的主要突破在于,无论其在语言基准测试中的结果如何,它都被人类评委认为是一个更好的模型(他们形成了一个非常同质的群体——OpenAI 员工和说英语的人——所以我们应该小心得出结论)。这凸显了克服使用基准作为评估 AI 能力的唯一指标的必要性。人类如何看待模型可能同样重要,甚至更重要。
鉴于 Altman 和 OpenAI 对有益的 AGI 的承诺,我相信 GPT-4 将实施并基于他们从 InstructGPT 获得的发现。
他们将改进对齐模型的方式,因为它仅限于 OpenAI 员工和讲英语的贴标机。真正的结盟应该包括具有各种来源和性别、种族、国籍、宗教等特征的群体。这是一个巨大的挑战,我们欢迎朝着这个目标迈出的任何一步(尽管我们应该谨慎地称其为结盟,因为它不是对大多数人来说)。
总结
模型尺寸:GPT-4 将比 GPT-3 大,但与当前最大的模型(MT-NLG 530B 和 PaLM 540B)相比不是很大。模型大小不会是一个显着特征。
最优性:GPT-4 将使用比 GPT-3 更多的计算。它将在参数化(最佳超参数)和缩放法则(训练令牌的数量与模型大小一样重要)方面实施新颖的最优性见解。
多模态:GPT-4 将是纯文本模型(不是多模态)。OpenAI 希望在完全转向像 DALL·E 这样的多模态模型之前,将语言模型发挥到极致——他们预测这种模型在未来将超越单模态系统。
稀疏性:GPT-4 遵循 GPT-2 和 GPT-3 的趋势,将是一个密集模型(所有参数都将用于处理任何给定的输入)。稀疏性将在未来变得更加主导。
校准:GPT-4 将比 GPT-3 更符合我们的需要。它将实施从 InstructGPT 中学习的知识,该知识是根据人类反馈进行训练的。尽管如此,AI 对齐还有很长的路要走,应该仔细评估所做的努力,不应该大肆宣传。