您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

AI大模型爆发，算力服务成为云计算未来胜负手！

1987web2023-08-14人工智能AI109

体验过ChatGPT的人肯定都印象深刻，不会怀疑AI大模型将掀起巨大变革。以ChatGPT为代表的AI大模型热度与日俱增，我们正处于剧变前夜。与此同时，AI大模型背后是对极致算力的巨大需求，算力服务将成为云计算未来激烈竞争的新战场。

AI大模型驱动对极致算力巨大需求

很多人可能是最近几个月才知道ChatGPT，但是大模型理论最早在2017年谷歌的论文《Attention is All You Need》中就提出。OpenAI在2018年6月就发布了初代GPT大模型，谷歌在2018年10月发布了BERT大模型。AI大模型发展迅速，最新的GPT-4大模型可以完成复杂的图像处理，通过律师资格考试。

根据IDC于近日发布的《2023年V1全球人工智能支出指南》（IDC Worldwide Artificial Intelligence Spending Guide），预测数据显示，中国人工智能（AI）市场支出规模将在2023年增至147.5亿美元，约占全球总规模十分之一。IDC预计，2026年中国AI市场将实现264.4亿美元市场规模，2021-2026五年复合增长率（CAGR）将超20%。

IDC分析AI硬件支出在五年预测期内占比将超中国市场总规模的一半，AI硬件支出的背后是对极致算力的需求。

大模型的大体现在海量参数训练，海量参数意味着需要极致算力。大模型参数都是万亿级别，根据公开报道，GPT-3大模型参数量多达1750亿个，使用了3000亿单词，超过40T的数据进行训练。GPT-3训练所使用的算力系统，是由1万个V100 GPU组成的高性能集群，总算力消耗约3640PF/days，即假如每秒计算一千万亿次，需要计算3640天。

根据OpenAI公开发表的论文《Language Models are Few-Shot Learners》，模型越大参数越多，对算力的需求也更大。

图来源 OpenAI 2020年1月公开论文《Language Models are Few-Shot Learners》第9页

AI大规模对算力集群的性能、可靠性、成本等方面都提出了极致要求。对于科技巨头来说如此巨大的投入还可以承受，但是对非科技巨头企业来说，往往没有能力自建算力集群，即使花巨资建设了算力集群，在计算的间歇期必然有大量的算力闲置，会造成巨大的浪费。对于这些企业来说解决方案就是使用云服务，云服务可以弹性伸缩按需付费。

OpenAI就是借助微软的Azure完成了ChatGPT的训练。目前各大公有云也纷纷推出了AI大模型算力产品，在国内这方面走到前面的是火山引擎。

服务超七成AI大模型企业火山引擎做对了什么

最近，2023春季火山引擎FORCE原动力大会于4月18日在上海举办，在大会上火山引擎发布自研DPU，并推出新版机器学习平台，支持企业客户更好地训练AI大模型，全力支持大模型的算力需求。目前火山引擎已经支持MiniMax、智谱、毫末智行、昆仑万维等企业在大模型领域快速发展。根据会上介绍，国内大模型领域的数十家企业，超过七成已经使用火山引擎算力服务。

在大会期间笔者也对火山引擎IaaS产品负责人李越渊进行了专访，通过一些产品技术细节，笔者深深感受到了火山引擎大模型算力在技术上的先进性，以及产品的高成熟度。

笔者记录的李越渊专访要点如下：

第一，火山引擎与字节跳动国内业务大规模并池，带来规模弹性、高可靠、高可用优势。复用字节跳动过亿核CPU资源池、数十EB的企业存储，实现更极致的弹性和性价比。

第二，火山引擎自研DPU，全面释放算力和IO能力。火山引擎自研DPU+自研虚拟交换机+ESSD，网络转发达到5000万pps，云盘支持100万IOPS，较上一代提升4倍以上。基于火山引擎自研DPU的新一代GPU服务器实例，实现零虚拟化损耗的高性能GPU服务，释放虚拟化软件占用的CPU资源。

第三，大规模集群训练性能提升3倍以上。首先基于字节内部超大规模集群的实践经验，火山引擎自研RDMA流控算法，做到万卡大规模集群的高效通信，大大提升集群工作的效率和线性加速比。其次，火山引擎在网络架构上也针对大模型进行了对应的优化，减少通信的路径长度，带来更好的延迟和吞吐表现。此外，火山引擎也在调度侧进行了优化，流量更多的就近通信，大大减小了网络的负担提升了通信的效率。

第四，火山引擎云服务器稳定可靠。火山引擎基于大规模集群的实践，在故障预测、故障感知、故障隔离、故障自愈上进行了大量的投入，打造了比较全面的一体式稳定性体系。云服务器的单实例在单可用区的可用性能够达到99.975%，多可用区的多台实例可用性高达99.995%，提供稳定的计算能力，保障业务高效进行。

通过对李越渊的专访，笔者有以下两点感受。

第一，火山引擎产品成熟。可用性是综合能力的体现，高达99.995%的可用性，背后是计算、存储、网络等不同模块，不同层面产品成熟度的体现。仔细想想其实也不意外，火山引擎虽然是一朵新云，但已经在字节跳动内部经过反复锤炼，抖音和今日头条有几亿的用户，在这个体量的用户需求下，产品成熟稳定也是必然的。

第二，火山引擎研发投入很大。自研DPU需要一定的技术积累，也需要巨大的资源支持。火山引擎自研DPU取得成功，并且能够不断优化性能，正是因为字节业务有极大规模，哪怕是1%的性能优化都会带来巨大收益，所有才有动力在技术研发上重兵投入，火山引擎的技术体系也得以不断完善，能够通过持续创新，在技术上保持先进。

火山引擎大模型算力服务技术先进产品成熟，那用起来如何，我们看看实际的案例。

多行业基于火山引擎大模型算力成功案例

大会上，来自晶泰科技、MiniMax、毫末智行的嘉宾分别基于所在行业领域，分享了自身在与火山引擎的合作中，如何实现敏捷迭代的落地实践。

晶泰科技联合创始人兼CEO马健分享了和火山引擎合作，通过AI+实验+云原生的业务模式，支撑着晶泰科技所打造的ID4inno™人工智能药物研发平台等持续迭代创新。

MiniMax联合创始人杨斌介绍了，借助火山引擎机器学习平台研发了超大规模的大模型训练平台，实现了文本、视觉、声音三种通用大模型每天千卡以上的常态化稳定训练，在并行训练上实现了99.9%以上的可用性。

毫末智行CEO顾维灏介绍了应用于自动驾驶行业的生成式大模型DriveGPT雪湖·海若。DriveGPT雪湖·海若基于量产车4000万公里的驾驶数据进行训练，参数规模达1200亿，可持续对自动驾驶认知决策模型进行持续优化，最终实现端到端自动驾驶。2023年1月，毫末和火山引擎联合打造了国内自动驾驶行业最大的智算中心——雪湖·绿洲（MANA OASIS），每秒浮点运算可达67亿亿次，雪湖·绿洲的性能是为自动驾驶量身定做的，有了智算中心以及训练框架的持续迭代保障，才能让DriveGPT雪湖·海若得以连续、稳定、高效地训练出来。

通过三家企业的案例分享，笔者有以下三个观点。

第一，火山引擎AI大模型算力服务经得起长时间大规模的检验。在时间上，三家企业都使用火山引擎AI大模型算力服务一年左右。在规模上，尤其是毫末智行的DriveGPT雪湖·海若参数规模达1200亿。另外，抖音和今日头条作为火山引擎的内部用户，其中以CV/NLP平台为例每周有约20万个模型的训练规模，它们使用的算力服务规模更大、时间更长。这些企业都在业务上取得了成功，切实说明火山引擎AI大模型算力服务在规模和稳定性上值得信赖。

第二，火山引擎AI大模型算力服务能够支持不同的行业应用，具有普适性。三家企业分别属于医药、人工智能创业、智能出行三个不同的行业方向。这三家企业的成功案例，证明了火山引擎AI大模型算力服务能够支持不同的行业应用，各行各业的企业都可以基于火山引擎搭建并使用自己的AI大模型应用，快速进入AI大模型时代，在自己行业取得竞争优势。

第三，火山引擎AI大模型算力服务能够节省企业大量的时间和成本。多行业企业都是使用火山引擎AI大模型算力服务一年左右就取得了亮眼的成绩。试想如果是企业自建算力集群，一年中大部分时间可能用于购买硬件、搭建调试集群，真正能用到业务上的时间没有多少，更不用说还需要组建相应的技术管理团队。多行业企业的实践，一方面说明了AI大模型计算使用云模式更有优势，另外一面也证明了使用火山引擎这样算力资源池规模大，技术先进且成熟稳定的云服务厂商是正确的选择。

当前，随着AI大模型的爆发对算力需求剧增，算力服务将成为云计算下一个关键点。火山引擎虽然是云计算的新入场者，但近年来攻势凌厉，取得了不少用户的认可。和其他云厂商不同的是，火山引擎没有推出自己的大模型产品，能够在提供算力服务的时候保持中立。算力将成为云计算未来的胜负手，火山引擎无疑已经跑到了领先位置。

↓↓ 点击"阅读原文" 【加入云技术社区】

人工智能AI

AI大模型爆发，算力服务成为云计算未来胜负手！

HarmonyOS4大升级！是时候亲身体验AI大模型的实力

AI模型的训练数据用完了怎么办？研究团队提出三种应对措施

相关文章