您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

CCCF精选芮勇：AI大模型为智能化变革带来的机遇和挑战

1987web2023-08-14人工智能AI186

近日，联想集团首席技术官芮勇博士接受了《中国计算机学会通讯》（CCCF）的专访，分享了他对火爆全网的ChatGPT等大模型的看法，以及大模型为企业智能化变革带来的机遇和挑战。

CCCF

最近ChatGPT火爆全网，您对此怎么看待？

芮勇：ChatGPT是OpenAI GPT系列中为对话场景优化的语言模型，属于Foundation Models，即基础模型，这里我们简称为大模型。它的特点可以概括为一大三多：一大是指参数规模大，大模型是千亿参数级别的超大型人工智能模型；三多是指利用多来源、多模态、多任务的互联网规模海量数据进行训练。这些训练数据大多是未标记的，模型通过无监督的方式进行预训练，然后适配到各种各样的下游任务，例如自动问答、情感分析、信息提取、图像标注、物体识别、指令执行等。

大模型首先在内容理解领域大获成功，例如BERT问世时刷新了11项自然语言理解任务的纪录。最近大模型又在内容生成领域取得了瞩目成就，也就是我们所说的AIGC。ChatGPT就属于AIGC的范畴，因为ChatGPT本质上是个生成式语言模型，根据上下文语境计算下一个最可能出现的单词，进而生成完整的句子。除了文本生成，大模型也可以成功地应用于代码生成，根据问题描述自动生成代码，或是根据上下文修正代码中的错误。不难理解，代码是程序员与计算机交流的语言，语言模型可以从自然语言扩展到编程语言。此外，大模型还能根据自然语言描述，生成相应的图像和视频，甚至是超现实的艺术作品，这使得普通人也能进行创作。这些都是大模型在内容生成领域的进展。

CCCF

大模型背后都有哪些技术使它如此成功呢？

芮勇：我们可以从以下几方面来理解大模型背后的创新性技术。

从模型规模方面看，大模型已经具有数千亿参数，这样的规模使得模型能学习到大量的模式与常识，甚至建立一定的推理能力。例如，早期的深度神经网络VGG-16有1.38亿个参数，ResNet-152有6000万个参数；而大模型GPT-3有1750亿参数，Google PaLM有5400亿参数。可见，大模型比早期的深度神经网络大数千倍；
从训练数据来看，大模型是用互联网级别的海量数据训练出来，这种规模的数据集包含丰富的模式、知识和常识。例如GPT-3使用了爬取的文本、高质量的网页、维基百科，以及书籍语料库，总数据量约5千亿词元（tokens）；
从训练方式来看，机器学习典型的方式是采用全监督方式训练，即训练样本需要有标注。而人工数据标注是传统人工智能系统的瓶颈。近几年发展起来的自监督学习方法，可以使模型直接从未标记的样本中学习特征表示，有效地避免了人工标注耗时耗力的问题。另外，针对语言模型而言，ChatGPT采用了RLHF(Reinforcement Learning from Human Feedback)技术，基本思路就是在训练阶段使用强化学习的方法，直接用人的偏好来优化模型的输出结果；
从泛化能力来看，对传统人工智能系统来说，AI模型部署后遇到的环境变化是一个巨大的挑战，往往需要一定数量的领域特定样本来微调或更新预训练模型。而大模型无需更新模型参数，即有多任务多领域的适应能力，甚至可以应对训练时没有遇到过的任务类型和问题领域。

CCCF

人们普遍认为大模型催生了AI的新范式，那具体怎么来理解呢？

芮勇：我们可以回顾GPT的发展历程来理解AI范式的转变。GPT系列论文的题目就指明了它的发展阶段：

GPT-1，Improving Language Understanding by Generative Pre-training（生成式预训练提升语言理解能力）。它使用预测下一个词的方式训练出基础的语言模型，对语言产生了理解。然后针对分类、蕴含、近义、多选等下游任务，使用特定数据集，更新模型参数，对模型进行调优与适配；
GPT-2，Language Models are Unsupervised Multitask Learners（语言模型是无监督的多任务学习者）。这个阶段的GPT通过多任务学习，获得了迁移学习的能力，它初步显示了零样本（zero-shot）设定下执行各类任务的能力，而无需进行任何参数或架构修改；
GPT-3，Language Models are Few-Shot Learner（语言模型是小样本学习者）。GPT显示出强大的in-context learning能力，即用户用少样示例来说明任务(prompt)，例如给出几对英语到法语的单词作为示例，再给出一个英语单词，GPT即可理解用户意图是要做翻译，继而给出对应的法语单词；
ChatGPT(GPT-3.5)，Optimizing Language Models for Dialogue（为对话场景优化语言模型）。这时的GPT进化到指令执行(instruction following)能力，即不必给示例，只要使用自然语言给出指令，GPT就可以理解用户意图。比如，直接告诉GPT要把某个英语单词译成法语，GPT即可执行给出结果。

简单来讲，AI范式的转变，是从针对特定任务，更新预训练模型(small models + fine-tuning)转换到根据上下文提示自动理解并执行各类任务，无需更新模型参数或架构(large models + in-context learning)。

CCCF

ChatGPT的成功，让有些人看到了由大模型通往AGI (通用人工智能) 的曙光，对此您怎么看？

芮勇：关于大模型能走多远，前景到底如何，是否能实现多任务，多模态，多化身的大一统，目前还颇有争议。近几年大模型有了突破式进展，很多人持乐观态度。例如，DeepMind研究主任Nando de Freitas的观点是规模致胜，认为只要把模型的规模做大，AI领域的很多难题就解决了，游戏就结束了！然而UC Berkeley教授Jitendra Malik表达了反对观点，认为这些大模型是空中楼阁。提出Foundation Models这一术语的论文作者Bommasani也表达了类似的担忧，认为尽管大模型即将广泛部署，但目前我们缺乏对其工作原理、以及涌现性质的清晰理解。从Gartner技术成熟度曲线可以看到，大模型目前处于期望膨胀阶段(Peak of Inflated Expectations)。人们对它的期望很高，但我们也应该看到，大模型尚未解决的问题还很多。比如谷歌版的ChatGPT，取名Bard，首次公开展示就出现回答结果不准确的问题，导致公司市值一天之内蒸发超1000亿美元。此外，对话机器人生成的句子里包含的信息无法溯源，甚至包含偏向性和冒犯性言论，等等。可见，通往AGI的道路还很漫长。

CCCF

能玩得起大模型的公司毕竟是少数，非巨头公司应该如何应对呢？

芮勇：我们先从技术角度来看看大模型取得突破式进展的原因。从GPT的发展历程中，我们可以看到，大模型背后的算法包括元学习(meta-learning)、小样本学习(few-shot learning)、多任务学习(multi-task learning)、强化学习(reinforcement learning)、人机回环(human-in-the-loop)、上下文学习(context learning)等。其实这些算法都是机器学习领域的基础性问题。这些算法近年来的发展，催生了今天大模型的成功，只不过有些算法在大模型里是隐式实现，有些是与传统方式不同的实现。我们关注大模型的成功，更要关注背后这些基础算法的作用。我们可以把这些基础算法和先进理念应用到自己的AI技术和产品开发当中。可以理解为化整为零，即这些基础核心算法单独使用；化零为整，即实现大一统的大模型。另外，大模型会逐渐形成生态，非巨头公司可以站在大模型这个肩膀之上，聚焦工具链，开发应用，或是考虑使用大模型更新业务模式、创新产品形态。

CCCF

大模型的目标为大一统，多种不同任务都可以由单一的大模型来完成，并且在越来越多的任务上实现新的突破。那么，应用AI的企业在未来是否要全面转向大模型呢？

芮勇：将一项技术注入产品或赋能业务，需要综合考虑很多因素。当前阶段的大模型还有很多问题没有解决。另外，用户场景产生的需求不同，应用程序的运行环境也各异，大模型并不是普遍适用的。比如，ChatGPT在与网友的问答中称自己的知识库截止到2021年，因此它无法回答时效性问题，或是进行新闻资讯类对话。也就是说，对于需要不断更新知识的业务场景，目前它还不能胜任。这也是ChatGPT嵌入搜索引擎时的一个重要考虑因素。再比如，大模型表现出多领域多任务的泛化能力，但我们对这种预训练模型无需微调的泛化能力还缺乏清晰的认知。对于工业应用，产线上的缺陷检测，对模型可靠性的要求很高，如果时灵时不灵，则会造成重大损失。另外，大模型的参数量在数千亿级别，使用时需要设备端与云端实时联接，那么对于网络通讯能力较弱的嵌入式设备，也不适合使用。当运行环境再苛刻一些，比如仅需要运动检测或唤醒词功能的IoT设备，设备功耗在毫瓦的数量级，不能联网，内存和计算资源也相当有限，这就更不适合大模型的应用了。

CCCF

大模型的兴起给从事AI的企业带来了哪些机会呢？

芮勇：大模型的兴起，为进行智能化变革的企业带来了很多新的机遇。以微软为例，目前已经推出了编程辅助工具Copilot，可在程序员写代码时自动提供建议。微软还引入AI图像生成器DALL-E 2帮助设计者生成图像，只要输入自然语言描述，AI图像生成工具就会自动生成符合描述的图像。必应和Office软件也计划整合ChatGPT，实现对话式搜索和内容生成的新体验。百度已经将大模型用于行业智能解决方案上。为更好地适配不同行业的任务和提升任务精度，百度的文心大模型使用行业特有的知识与数据对模型进行定制，目前已经发布了11个行业大模型，促进大模型的应用落地。联想借鉴大模型背后的基础性算法，将小样本学习应用到基于计算机视觉的产品缺陷检测当中，提升了质检系统对新产品和新产线的快速迁移能力；此外，联想还将强化学习技术和人机协作的理念应用到供应链优化当中，使得供应链在剧烈变化的环境中不断提升韧性。

大模型的开发、训练、部署、推理为云计算业务的进一步发展创造了新的机会，因为大模型所需的海量计算资源只有云侧才能提供。云平台可以为大模型开发者提供全栈的硬件、软件、工具和服务，以便大数据的存储和大模型的训练。训练好的大模型可以部署在云平台上，提供给终端用户调用。此外，大模型带来的社会问题也需要解决，如AIGC带来的一本正经地说瞎话、真假内容泛滥、人类难以鉴别等，解决好这些问题也会有巨大的商业价值和社会价值。

值得注意的是，大模型的变现模式还不是十分清晰。例如，谷歌担忧引入对话式搜索会影响用户点击搜索结果页面的广告，从而直接影响广告收入。新技术冲击旧模式的同时，也可能会带来新的商业机会。正如Open AI首席执行官Sam Altman指出的数据飞轮理念，即使用更多数据可以训练出更好的模型，吸引更多用户，从而产生更多用户数据用于训练，形成良性循环。

CCCF

联想将在AI新范式和大模型普及中发挥怎样的作用，会有哪些行动呢？

芮勇：长远来看，AI新范式(large models + in-context learning)与旧范式(small models + fine-tune)很有可能共存，或是相互结合，而不会单个范式一统天下。联想将充分发挥端-边-云-网-智新IT架构的优势，来支撑新旧范式的结合与转换。联想提出的新IT架构，既致力于推动自身的智能化变革，也着眼于赋能各行各业的智能化转型。从刚才我们对新旧范式的分析可以看出，AI模型对运行环境需求越来越高，例如云-边-端的高度协同，异构计算与负载均衡、设备之间的互联互通、数据安全与隐私保护、模型本身的伸缩性与扩展性，等等。联想在这些方面都有着深厚的技术积累，新IT架构在AI新范式加速智能化变革的过程中也会继续发挥重要作用。

除了基础架构之外，联想还在考虑AIGC技术在产品和业务里的应用。比如，在智能设备中对跨模态的生成模型进行优化和裁剪，使之能加载到手机或平板上实现个性化内容生成。在智能解决方案方面，我们考虑把AIGC用于新产品营销与新客户触达。目前，大模型还没有与知识有效结合，我们正在研究数据驱动与知识驱动相结合的方法，即Hybrid Learning来改进大模型的不足。另外，在大模型落地过程中，也需要彻底解决对环境变化或是新领域、新任务的自适应问题，即Adaptive Learning，这些都是联想在人工智能方面的探索方向。

芮勇

CCF会士、常务理事、奖励委员会成员。联想集团首席技术官、高级副总裁，同时也是联想集团最高决策机构(LEC)成员以及联想技术委员会副主席，负责联想集团技术战略和研发方向的规划和制定，并领导联想研究院的工作。在加入联想之前，芮勇博士曾在微软工作18年，曾任微软亚洲研究院常务副院长。此外，他还是中国人工智能学会会士，ACM/IEEE/IAPR/SPIE Fellow，以及欧洲科学院外籍院士。

特别声明：中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权，未经CCF允许，不得转载本刊文字及照片，否则被视为侵权。对于侵权行为，CCF将追究其法律责任

CCF推荐

【精品文章】

CCCF精选｜开源芯片新征程
CCCF精选｜新时代的可视化
CCCF精选｜大数据近似计算研究与探索
CCCF精选｜计算机图形学将是未来智能的入口
CCCF精选｜AI与安全的交叉创新
CCCF精选｜我与移动互联网一同前进的岁月
CCCF精选｜做有工匠精神的创新
CCCF精选｜从群体感知到群智计算

点击阅读原文，查看更多CCCF文章。

人工智能AI

CCCF精选芮勇：AI大模型为智能化变革带来的机遇和挑战

【教程】开始使用spellworkplaces和IPU运行AI模型

“AI大模型”应用于医疗健康，或将面临哪些风险与挑战？

相关文章