1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

AI大模型训练,下一个加速点在哪?

1987web2023-08-14人工智能AI100

每年的6月是全国高考的月份,随着最近高考成绩的公布,一方面是各个学校迫不及待的张贴喜报,另外一方面,则是拿着成绩的父母们,到处咨询,孩子到底读什么专业比较好。与往年不同的是今年不少家长开始问什么专业,未来最不容易被AI取代?

随着OpenAI推出的ChatGPT惊艳世界开始,原本认为只是存在于各个厂商宣传口号中的AI技术,突然之间每个人都能够轻松使用,并得到不错的体验。人工智能时代的大门仿佛一下打开了。

AI什么时候能够彻底改变人类的生活,能够改变到什么程度,目前尚无定论,但AI已经成为了科技界最热门的领域,它带给了人类无限的期待和想象,成为各国科技竞争的最重要、最耀眼的一条赛道。

当前各大科技厂商已经疯狂布局人工智能,加速训练各种大模型,并快速的把大模型能力集成到各种产品和应用之中,以期在这场新的范式转换和技术浪潮中占得先机。

大明星ChatGPT是如何炼成的

人工智能(AI)是一个广泛的术语,指的是任何能够进行智能行为的技术。过去比较常用来进行一些重复、简单的辅助工作,比如流水车间的组装加工、车辆自动驾驶等,而当前火爆的ChatGPT是一种名为生成式AIGenerative AI)的人工智能系统,它通过在大型数据集上进行训练,并使用深度学习算法生成与数据内容相似的新内容,从而实现类似人类创造力的功能。于是人们突然发现AI已经发展到可以进行文字、图片、音乐的创作工作!这让以往认为最难被AI取代创意设计行业从业者们都开始感受到了焦虑。

凡事都不是一蹴而就的,如同一个人一样,生成式AI想要完成赋予它的创作工作,是需要有一个学习的过程的。这个过程就是训练,以ChatGPT为例,他的训练过程大致分为数据预处理、模型训练和模型评估三个阶段。简单来说就是从海量的真实数据中,筛选出合适的足够多的数据,处理成模型算法能够理解的数据集格式之后,用数据集对模型算法进行训练,再对训练出来的模型进行评估验证、微调,再训练,反复锤炼,完成生成式AI模型的训练过程。完成训练之后的AI模型,再根据用户的输入,生成新的内容,这个过程,就是AI的推理。也就是我们平时应用AI来生成文字、图片、音乐等创作的过程了。

增加GPU,AI大模型训练加速就OK了吗

从AI模型的训练过程中不难看出,AI大模型想要能够应用,必须要有反复训练调整的一个过程,谁能更快更好的完成AI大模型的训练并投入到产品应用之中,谁的AI系统就能够在竞争中占据有利地位。

如果想要加速AI的训练,各大厂商现在专注的军备竞赛最主要的资源,自然就是大量的算力资源,据英伟达测算,如果使用单个Tesla架构的V100 GPU对1746亿参数的GPT-3模型进行一次训练,需要用288年时间,可见算力是整个AI大模型训练中,需求量最为庞大的一个资源。因此为了能够更快的完成训练,算力成为了整个业界所疯狂追捧的资源。乘着AI的东风市值的不断上涨的英伟达自然是开足马力不断狂飙,发布了全新架构的Nvidia Hopper H100芯片,相比上一代A100芯片,能力直接提升6倍。各大科技公司纷纷投入重金大量采购,恨不得将自己的数据中心塞满GPU,并且让这些算力时刻运转起来。

但仅仅是增加GPU,AI大模型训练的加速就OK了吗?业界广泛流传一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,为了训练出更好的大模型,模型参数量不断的扩大,2019年2月发布的GPT-2参数量仅为15亿,2020年5月的GPT-3参数量已经达到了1750亿,如今业界的大模型已经发展到10万亿级别。而多模的加入,让以前仅仅只是专注于文本、图片等某些单一模型的数据量开始混合了包括文字、图片、视频、声音等多种不同类型数据,让作为样本数据的数据集的容量也不断膨胀。仅仅只是算力的堆砌,很可能会因为网络或者存储的瓶颈,导致花费巨资购买的GPU利用率不升反降。

除了算力的不足以外,AI大模型的训练还有其他问题。

  1. 在预处理数据之前,需要把从PB级的数据的进行汇聚,随着多云时代的到来,原始数据分散在不同的数据中心、云环境之中,数据孤岛现象非常明显,此外,新生成的数据很多是使用了不同协议保存的非结构化数据,在数据预处理之前,将数据整合归集起来,是一项费时费力的事情。

  2. 数据预处理阶段,系统要把各种不同格式、不同类型的数据转换成AI模型可以识别的数据类型,对掉数据集中重复、错误、有缺失数据进行清洗,这个过程需要对海量数据进行大量的反复读写工作。有研究报告表明,AI训练过程预处理所占时间达到了30%左右的比例。预处理之后的数据将用于模型训练,对于最终能够训练出一个令人满意的AI大模型极为重要,减少预处理时间,提升模型训练实时性,对于AI大模型训练有很大的意义。

  3. AI大模型训练通常是以数月甚至年为周期来进行的,在GPU服务器较高的故障率面前,必须使用checkpoint来用于备份恢复,确保在遭遇故障时,训练可以回退到中间点,而无需回到初始点重新训练。同时受限于大模型训练过程的不确定性,也需要训练过程中在关键节点保存checkpoint便于回退修正,以提高整体训练收敛的效率。这些checkpoint数据的高效存取对存储的性能、可靠性有很高的要求。

  4. 大模型的训练都是基于历史数据来训练而成,无法获取最新的信息数据,比如基于2021年的数据训练出来的模型无法分析2022年世界杯阿根廷夺冠的过程。因此,当大模型用于推理时,需要考虑如何提升推理数据的实时性和精准度。

如同一个人有了超强的大脑之后,需要有一颗强健的心脏,把血液输送到大脑一样,拥有强大算力之后,如何能够快速高效的把数据输入到计算之中,也是一个很重要的课题。

面对AI大模型训练中的问题,存储系统也需要能够有更高的能力去协力解决。比如全局统一数据视图和调度去更好的打破数据孤岛减少数据拷贝、多协议互通满足多模大模型中不同数据类型的分析,更大的读写带宽能力减少数据输入的时间并快速读写checkpoint数据、更快的海量小文件读写性能满足训练中的文件访问要求等。

一个AI模型的成功与否,除了自身算法和模型的设计的软实力以外,基础设施的硬实力同样重要,并且单单提升算力是不够的,数据传输所需要的运力,数据存储所需要的存力也是非常重要的组成部分,只有这三方面达到平衡,才能让整个系统发挥出最大的力量。

AI大模型时代的到来,如何才能在存力方面有更好的适用于AI的数据存储解决方案呢?7月14日,华为将发布大模型时代AI存储产品,我们能在那找到答案。

·

·

点击阅读原文,立即注册参会