开放加速规范AI服务器设计指南
原标题:开放加速规范AI服务器设计指南
自OpenAI的ChatGPT发布以来,生成式AI技术获得了广泛关注,一系列开创性研究 成果相继发布,引领了人工智能的新一轮 创新浪潮。AI大模型是生成式AI的关键底 座,得益于泛化能力强、长尾数据依赖性 低以及下游模型使用效率高,大模型被认 为具备了通用人工智能AGI的雏形。
相 比传统AI模型,大模型的训练使用了更庞 大的数据,具有更巨量的模型参数和更发 散的下游应用场景,对全社会生产力和生 产效率的提升、传统产业转型升级具有重 大的价值潜力。因此,全球范围内已经掀 起了一场生成式AI革命,政策和资本驱动 生成式AI技术加速商业化落地。
AI大模型发展需要庞大的AI算力支撑,大模 型往往采用无标注、自监督的训练方法, 使用海量数据做超大规模的模型训练,因 而对于算力的需求和传统的模型训练相比 也出现了3~4个数量级的提升。当前语言大 模型的参数量已达千亿以上,训练数据集 的规模也达到了TB级别。
业界典型的自然 语言大模型有GPT、LLAMA、PaLM、文 心、悟道、源等。如果用算力当量 (PetaFlops/s-day,PD),即每秒千万亿次的计算机完整运行一天消耗的算力总 量来表征大模型的算力需求,具有1750亿 参数的GPT-3模型的训练算力需求为 3640PetaFlop/s-day。参数量为2457亿的 源1.0大模型训练算力消耗为4095PetaFlop/s-day。
大模型的高效训练通常需要 具备千卡以上高算力AI芯片构成的AI服务器 集群支撑。在全球科技企业加大投入生成 式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。随着市场对AI计算力需求的不断攀升,全 球已有上百家公司投入新型AI加速芯片的 开发,AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技 术路线,导致芯片的接口、互连、协议上 互不兼容,而专有AI计算硬件系统开发周 期长、研发成本高,严重阻碍了新型AI加 速器的研发创新和应用推广。
全球开放计 算项目组织OCP发起开放加速规范OAI,但 在推向产业落地的过程中,依然存在大量 的定制化工作以及现有标准未能完全覆盖 的领域,包括多元AI芯片适配、AI算力资源 管理和调度、数据整合及加速、深度学习 开发环境部署等多个方面。
《开放加速规范AI服务器设计指南》公众号:幻影视界。