AI大模型爆发,算力服务成为云计算未来胜负手!
体验过ChatGPT的人肯定都印象深刻,不会怀疑AI大模型将掀起巨大变革。以ChatGPT为代表的AI大模型热度与日俱增,我们正处于剧变前夜。与此同时,AI大模型背后是对极致算力的巨大需求,算力服务将成为云计算未来激烈竞争的新战场。
01
AI大模型驱动对极致算力巨大需求
很多人可能是最近几个月才知道ChatGPT,但是大模型理论最早在2017年谷歌的论文《Attention is All You Need》中就提出。OpenAI在2018年6月就发布了初代GPT大模型,谷歌在2018年10月发布了BERT大模型。AI大模型发展迅速,最新的GPT-4大模型可以完成复杂的图像处理,通过律师资格考试。
根据IDC于近日发布的《2023年V1全球人工智能支出指南》(IDC Worldwide Artificial Intelligence Spending Guide),预测数据显示,中国人工智能(AI)市场支出规模将在2023年增至147.5亿美元,约占全球总规模十分之一。IDC预计,2026年中国AI市场将实现264.4亿美元市场规模,2021-2026五年复合增长率(CAGR)将超20%。
IDC分析AI硬件支出在五年预测期内占比将超中国市场总规模的一半,AI硬件支出的背后是对极致算力的需求。
大模型的大体现在海量参数训练,海量参数意味着需要极致算力。大模型参数都是万亿级别,根据公开报道,GPT-3大模型参数量多达1750亿个,使用了3000亿单词,超过40T的数据进行训练。GPT-3训练所使用的算力系统,是由1万个V100 GPU组成的高性能集群,总算力消耗约3640PF/days,即假如每秒计算一千万亿次,需要计算3640天。
根据OpenAI公开发表的论文《Language Models are Few-Shot Learners》,模型越大参数越多,对算力的需求也更大。
图来源 OpenAI 2020年1月公开论文《Language Models are Few-Shot Learners》第9页
AI大规模对算力集群的性能、可靠性、成本等方面都提出了极致要求。对于科技巨头来说如此巨大的投入还可以承受,但是对非科技巨头企业来说,往往没有能力自建算力集群,即使花巨资建设了算力集群,在计算的间歇期必然有大量的算力闲置,会造成巨大的浪费。对于这些企业来说解决方案就是使用云服务,云服务可以弹性伸缩按需付费。
OpenAI就是借助微软的Azure完成了ChatGPT的训练。目前各大公有云也纷纷推出了AI大模型算力产品,在国内这方面走到前面的是火山引擎。
02
服务超七成AI大模型企业火山引擎做对了什么
最近,2023春季火山引擎FORCE原动力大会于4月18日在上海举办,在大会上火山引擎发布自研DPU,并推出新版机器学习平台,支持企业客户更好地训练AI大模型,全力支持大模型的算力需求。目前火山引擎已经支持MiniMax、智谱、毫末智行、昆仑万维等企业在大模型领域快速发展。根据会上介绍,国内大模型领域的数十家企业,超过七成已经使用火山引擎算力服务。
在大会期间笔者也对火山引擎IaaS产品负责人李越渊进行了专访,通过一些产品技术细节,笔者深深感受到了火山引擎大模型算力在技术上的先进性,以及产品的高成熟度。
笔者记录的李越渊专访要点如下:
第一,火山引擎与字节跳动国内业务大规模并池,带来规模弹性、高可靠、高可用优势。复用字节跳动过亿核CPU资源池、数十EB的企业存储,实现更极致的弹性和性价比。
第二,火山引擎自研DPU,全面释放算力和IO能力。火山引擎自研DPU+自研虚拟交换机+ESSD,网络转发达到5000万pps,云盘支持100万IOPS,较上一代提升4倍以上。基于火山引擎自研DPU的新一代GPU服务器实例,实现零虚拟化损耗的高性能GPU服务,释放虚拟化软件占用的CPU资源。
第三,大规模集群训练性能提升3倍以上。首先基于字节内部超大规模集群的实践经验,火山引擎自研RDMA流控算法,做到万卡大规模集群的高效通信,大大提升集群工作的效率和线性加速比。其次,火山引擎在网络架构上也针对大模型进行了对应的优化,减少通信的路径长度,带来更好的延迟和吞吐表现。此外,火山引擎也在调度侧进行了优化,流量更多的就近通信,大大减小了网络的负担提升了通信的效率。
第四,火山引擎云服务器稳定可靠。火山引擎基于大规模集群的实践,在故障预测、故障感知、故障隔离、故障自愈上进行了大量的投入,打造了比较全面的一体式稳定性体系。云服务器的单实例在单可用区的可用性能够达到99.975%,多可用区的多台实例可用性高达99.995%,提供稳定的计算能力,保障业务高效进行。
通过对李越渊的专访,笔者有以下两点感受。
第一,火山引擎产品成熟。可用性是综合能力的体现,高达99.995%的可用性,背后是计算、存储、网络等不同模块,不同层面产品成熟度的体现。仔细想想其实也不意外,火山引擎虽然是一朵新云,但已经在字节跳动内部经过反复锤炼,抖音和今日头条有几亿的用户,在这个体量的用户需求下,产品成熟稳定也是必然的。
第二,火山引擎研发投入很大。自研DPU需要一定的技术积累,也需要巨大的资源支持。火山引擎自研DPU取得成功,并且能够不断优化性能,正是因为字节业务有极大规模,哪怕是1%的性能优化都会带来巨大收益,所有才有动力在技术研发上重兵投入,火山引擎的技术体系也得以不断完善,能够通过持续创新,在技术上保持先进。
火山引擎大模型算力服务技术先进产品成熟,那用起来如何,我们看看实际的案例。
03
多行业基于火山引擎大模型算力成功案例
大会上,来自晶泰科技、MiniMax、毫末智行的嘉宾分别基于所在行业领域,分享了自身在与火山引擎的合作中,如何实现敏捷迭代的落地实践。
晶泰科技联合创始人兼CEO马健分享了和火山引擎合作,通过AI+实验+云原生的业务模式,支撑着晶泰科技所打造的ID4inno™人工智能药物研发平台等持续迭代创新。
MiniMax联合创始人杨斌介绍了,借助火山引擎机器学习平台研发了超大规模的大模型训练平台,实现了文本、视觉、声音三种通用大模型每天千卡以上的常态化稳定训练,在并行训练上实现了99.9%以上的可用性。
毫末智行CEO顾维灏介绍了应用于自动驾驶行业的生成式大模型DriveGPT雪湖·海若。DriveGPT雪湖·海若基于量产车4000万公里的驾驶数据进行训练,参数规模达1200亿,可持续对自动驾驶认知决策模型进行持续优化,最终实现端到端自动驾驶。2023年1月,毫末和火山引擎联合打造了国内自动驾驶行业最大的智算中心——雪湖·绿洲(MANA OASIS),每秒浮点运算可达67亿亿次,雪湖·绿洲的性能是为自动驾驶量身定做的,有了智算中心以及训练框架的持续迭代保障,才能让DriveGPT雪湖·海若得以连续、稳定、高效地训练出来。
通过三家企业的案例分享,笔者有以下三个观点。
第一,火山引擎AI大模型算力服务经得起长时间大规模的检验。在时间上,三家企业都使用火山引擎AI大模型算力服务一年左右。在规模上,尤其是毫末智行的DriveGPT雪湖·海若参数规模达1200亿。另外,抖音和今日头条作为火山引擎的内部用户,其中以CV/NLP平台为例每周有约20万个模型的训练规模,它们使用的算力服务规模更大、时间更长。这些企业都在业务上取得了成功,切实说明火山引擎AI大模型算力服务在规模和稳定性上值得信赖。
第二,火山引擎AI大模型算力服务能够支持不同的行业应用,具有普适性。三家企业分别属于医药、人工智能创业、智能出行三个不同的行业方向。这三家企业的成功案例,证明了火山引擎AI大模型算力服务能够支持不同的行业应用,各行各业的企业都可以基于火山引擎搭建并使用自己的AI大模型应用,快速进入AI大模型时代,在自己行业取得竞争优势。
第三,火山引擎AI大模型算力服务能够节省企业大量的时间和成本。多行业企业都是使用火山引擎AI大模型算力服务一年左右就取得了亮眼的成绩。试想如果是企业自建算力集群,一年中大部分时间可能用于购买硬件、搭建调试集群,真正能用到业务上的时间没有多少,更不用说还需要组建相应的技术管理团队。多行业企业的实践,一方面说明了AI大模型计算使用云模式更有优势,另外一面也证明了使用火山引擎这样算力资源池规模大,技术先进且成熟稳定的云服务厂商是正确的选择。
当前,随着AI大模型的爆发对算力需求剧增,算力服务将成为云计算下一个关键点。火山引擎虽然是云计算的新入场者,但近年来攻势凌厉,取得了不少用户的认可。和其他云厂商不同的是,火山引擎没有推出自己的大模型产品,能够在提供算力服务的时候保持中立。算力将成为云计算未来的胜负手,火山引擎无疑已经跑到了领先位置。
↓↓ 点击"阅读原文" 【加入云技术社区】
相关阅读:
Gartner:为什么ChatGPT会掀起人工智能市场的轩然大波?
2023十大技术趋势:高性能计算、泛在操作系统、云计算、数字人、时空人工智能、能源互联网、Web3、机器人、数字办公、产业安全
Gartner 2023年十大战略技术趋势:元宇宙、行业云平台、应用可观测性、数字免疫系统、自适应AI等
RightScale 2019年云状况调查报告:35% 的云支出被浪费「附50页PDF下载」
更多文章请关注
文章好看点这里[在看]?
随着OpenAI推出ChatGPT以来,大型语言模型的开发已成为各大科技企业的兵家必争之地。
然而,根据Epoch调查团队的最新研究结果,用于训练大模型的高质量数据资源可能很快就会耗尽,到2026年之前通过增加训练数据量来改善大模型运行结果的趋势就会放缓。
众所周知,机器学习(ML)模型可以通过增加训练数据量来提高性能。然而简单地向模型提供更多数据并不总是最好的解决方案,在罕见事件或利基应用的情况下尤其如此。例如,如果我们想训练一个模型来检测一种罕见的疾病可能需要很多数据来工作。但是,随着时间的推移,我们会希望模型能力变得越来越强结果越来越精确,那就需要更多的数据进行训练。
Epoch调查团队对互联网上可用的数据(高质量数据包括维基百科等资源,低质量数据则包括来自社交媒体的数据)进行了调研分析,结果表明高质量数据很可能在2026年之前耗尽,低质量数据则可能在几十年后耗尽。
这表明,如果我们想阻止技术发展因为训练数据的减少而放缓的趋势,就需要开发出不完全依靠数据量来提升性能的机器学习模型。
扩展AI模型的局限性
扩展机器学习模型的最重大挑战之一是增加模型大小的收益递减,随着模型规模的不断增长,其性能提升变得微乎其微。这是因为模型变得越复杂,就越难优化,也就越容易过度拟合。此外,较大的模型需要更多的计算资源和时间来进行训练,这使得它们在实际应用中不太实用。
缩放模型的另一个重要限制是难以确保其鲁棒性和泛化性。鲁棒性是指模型在面对噪音或对抗性输入时仍能表现良好的能力。泛化性是指模型在训练期间未见过的数据上表现良好的能力。随着模型变得越来越复杂,它们变得更容易受到对抗性攻击,从而降低了它们的鲁棒性。此外,较大的模型会记住训练数据,而不是学习底层模式,从而导致泛化性较差。
可解释性和说明性对于理解模型如何进行预测至关重要。然而,随着模型变得越来越复杂,其内部工作方式变得越来越难以理解,从而使解释和说明其决策变得困难。这种缺乏透明度在医疗或金融等关键应用中可能带来很多问题,因为在这些领域决策过程必须是可解释和透明的。
构建机器学习模型的三种替代方法
克服这一问题的一个办法是重新考虑我们认为高质量和低质量的数据。根据南加州大学机器学习教授SwabhaSwayamdipta的说法,创建更多样化的训练数据集有助于克服这些局限性,同时又不会降低训练质量。此外,根据他的说法,在相同的数据上多次训练模型可以帮助降低成本和更有效地重用数据。
这些方法可以推迟问题的发生,但我们使用相同数据训练模型的次数越多,就越容易出现过度拟合。从长远来看,我们需要有效的策略来克服数据问题。
概率近似正确学习(JEPA)是YannLeCun提出的一种机器学习方法,它与传统方法的不同之处在于使用经验概率分布对数据进行建模和预测。
在传统方法中,模型的设计是为了将数学方程与数据进行拟合,通常基于对数据潜在分布的假设。然而,在JEPA中,该模型通过经验分布近似直接从数据中学习。这种方法包括把数据分成几个子集,然后估计每个子集的概率分布。然后,这些概率分布结合起来形成一个联合分布,用于做出预测。JEPA能够处理复杂的高维数据,并适应不断变化的数据模式。