您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

AI大模型训练，下一个加速点在哪？

1987web2023-08-14人工智能AI100

每年的6月是全国高考的月份，随着最近高考成绩的公布，一方面是各个学校迫不及待的张贴喜报，另外一方面，则是拿着成绩的父母们，到处咨询，孩子到底读什么专业比较好。与往年不同的是今年不少家长开始问什么专业，未来最不容易被AI取代？

随着OpenAI推出的ChatGPT惊艳世界开始，原本认为只是存在于各个厂商宣传口号中的AI技术，突然之间每个人都能够轻松使用，并得到不错的体验。人工智能时代的大门仿佛一下打开了。

AI什么时候能够彻底改变人类的生活，能够改变到什么程度，目前尚无定论，但AI已经成为了科技界最热门的领域，它带给了人类无限的期待和想象，成为各国科技竞争的最重要、最耀眼的一条赛道。

当前各大科技厂商已经疯狂布局人工智能，加速训练各种大模型，并快速的把大模型能力集成到各种产品和应用之中，以期在这场新的范式转换和技术浪潮中占得先机。

大明星ChatGPT是如何炼成的

人工智能（AI）是一个广泛的术语，指的是任何能够进行智能行为的技术。过去比较常用来进行一些重复、简单的辅助工作，比如流水车间的组装加工、车辆自动驾驶等，而当前火爆的ChatGPT是一种名为生成式AI（Generative AI）的人工智能系统，它通过在大型数据集上进行训练，并使用深度学习算法生成与数据内容相似的新内容，从而实现类似人类创造力的功能。于是人们突然发现AI已经发展到可以进行文字、图片、音乐的创作工作！这让以往认为最难被AI取代创意设计行业从业者们都开始感受到了焦虑。

凡事都不是一蹴而就的，如同一个人一样，生成式AI想要完成赋予它的创作工作，是需要有一个学习的过程的。这个过程就是训练，以ChatGPT为例，他的训练过程大致分为数据预处理、模型训练和模型评估三个阶段。简单来说就是从海量的真实数据中，筛选出合适的足够多的数据，处理成模型算法能够理解的数据集格式之后，用数据集对模型算法进行训练，再对训练出来的模型进行评估验证、微调，再训练，反复锤炼，完成生成式AI模型的训练过程。完成训练之后的AI模型，再根据用户的输入，生成新的内容，这个过程，就是AI的推理。也就是我们平时应用AI来生成文字、图片、音乐等创作的过程了。

增加GPU，AI大模型训练加速就OK了吗

从AI模型的训练过程中不难看出，AI大模型想要能够应用，必须要有反复训练调整的一个过程，谁能更快更好的完成AI大模型的训练并投入到产品应用之中，谁的AI系统就能够在竞争中占据有利地位。

如果想要加速AI的训练，各大厂商现在专注的军备竞赛最主要的资源，自然就是大量的算力资源，据英伟达测算，如果使用单个Tesla架构的V100 GPU对1746亿参数的GPT-3模型进行一次训练，需要用288年时间，可见算力是整个AI大模型训练中，需求量最为庞大的一个资源。因此为了能够更快的完成训练，算力成为了整个业界所疯狂追捧的资源。乘着AI的东风市值的不断上涨的英伟达自然是开足马力不断狂飙，发布了全新架构的Nvidia Hopper H100芯片，相比上一代A100芯片，能力直接提升6倍。各大科技公司纷纷投入重金大量采购，恨不得将自己的数据中心塞满GPU，并且让这些算力时刻运转起来。

但仅仅是增加GPU，AI大模型训练的加速就OK了吗？业界广泛流传一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。因此，为了训练出更好的大模型，模型参数量不断的扩大，2019年2月发布的GPT-2参数量仅为15亿，2020年5月的GPT-3参数量已经达到了1750亿，如今业界的大模型已经发展到10万亿级别。而多模的加入，让以前仅仅只是专注于文本、图片等某些单一模型的数据量开始混合了包括文字、图片、视频、声音等多种不同类型数据，让作为样本数据的数据集的容量也不断膨胀。仅仅只是算力的堆砌，很可能会因为网络或者存储的瓶颈，导致花费巨资购买的GPU利用率不升反降。

除了算力的不足以外，AI大模型的训练还有其他问题。

在预处理数据之前，需要把从PB级的数据的进行汇聚，随着多云时代的到来，原始数据分散在不同的数据中心、云环境之中，数据孤岛现象非常明显，此外，新生成的数据很多是使用了不同协议保存的非结构化数据，在数据预处理之前，将数据整合归集起来，是一项费时费力的事情。
数据预处理阶段，系统要把各种不同格式、不同类型的数据转换成AI模型可以识别的数据类型，对掉数据集中重复、错误、有缺失数据进行清洗，这个过程需要对海量数据进行大量的反复读写工作。有研究报告表明，AI训练过程预处理所占时间达到了30%左右的比例。预处理之后的数据将用于模型训练，对于最终能够训练出一个令人满意的AI大模型极为重要，减少预处理时间，提升模型训练实时性，对于AI大模型训练有很大的意义。
AI大模型训练通常是以数月甚至年为周期来进行的，在GPU服务器较高的故障率面前，必须使用checkpoint来用于备份恢复，确保在遭遇故障时，训练可以回退到中间点，而无需回到初始点重新训练。同时受限于大模型训练过程的不确定性，也需要训练过程中在关键节点保存checkpoint便于回退修正，以提高整体训练收敛的效率。这些checkpoint数据的高效存取对存储的性能、可靠性有很高的要求。
大模型的训练都是基于历史数据来训练而成，无法获取最新的信息数据，比如基于2021年的数据训练出来的模型无法分析2022年世界杯阿根廷夺冠的过程。因此，当大模型用于推理时，需要考虑如何提升推理数据的实时性和精准度。

如同一个人有了超强的大脑之后，需要有一颗强健的心脏，把血液输送到大脑一样，拥有强大算力之后，如何能够快速高效的把数据输入到计算之中，也是一个很重要的课题。

面对AI大模型训练中的问题，存储系统也需要能够有更高的能力去协力解决。比如全局统一数据视图和调度去更好的打破数据孤岛减少数据拷贝、多协议互通满足多模大模型中不同数据类型的分析，更大的读写带宽能力减少数据输入的时间并快速读写checkpoint数据、更快的海量小文件读写性能满足训练中的文件访问要求等。