如何造一台优秀AI服务器?这家公司答案够硬核!
一年一度NVIDA GTC中国又来了!
作为业内知名峰会,搭载GPU的众多AI服务器自然成为行业关注焦点。那如何才能造出一台优秀的AI服务器?就此问题,服务器新锐厂商宁畅的答案,让人直感够硬核。
图说:宁畅X640 G30内部图
关键一:扩展接口丰富
随着人工智能、5G、大数据等新技术的成熟与落地,企业正面临着服务器升级更新的迫切需求。AI技术的迅速落地,也为以AI服务器为主的AI基础设施扩容带来机遇。IDC预测,到2024年,中国AI服务器市场规模将达到64亿美元。
如今,AI服务器在医疗、游戏、电商等多个行业有着广泛的应用。不过,若想更好地释放GPU的潜力,则很考验服务器厂商的技术与设计。
图说:丰富扩展接口保证性能
据宁畅工程师介绍,制造一台(高效、灵活、稳定)AI服务器,首先需有丰富的扩展性。以宁畅AI服务器X640系列为例,在满配8个NVIDIA A100™ /V100™ Tensor Core GPU或16个NVIDIA T4™ Tensor Core GPU后,X640仍有丰富PCI-E接口用于网络、存储和其他IO扩展。丰富扩展设计,保障了定制化方案的灵活。
关键二:灵活拓扑架构
对于企业来说,AI服务器要满足多场景下的应用需求。这就要求服务器产品具有灵活多变适应不同AI任务需求的布局能力。
以宁畅AI服务器X640 G30为例,可通过硬件链路重新布局,以实现灵活GPU拓扑结构,并针对不同应用场景和模型进行GPU互联优化。这将极大便利用户训练大数据模型。
比如,在进行模型训练时,根据需要可安装最高8颗全高双宽高速GPU,并支持GPU之间通过P2P模式互联;在用来做推理计算时,同一台机器又可支持到最大16颗低功耗推理GPU,并为每颗GPU均衡配备CPU资源。
不久前,X640 G30在AI基准性能评测平台MLPerf的ResNet、BERT、DLRM等测试中取得30项世界第一的成绩。
关键三:定制液冷散热
AI服务器的升级优化,正加速AI产业发展。但GPU核心部件的性能提升,带来散热等难题。为保障全年24小时运行的AI服务器稳定,宁畅散热团队自2015年开始,先后开发出一体闭式循环液冷散热器以及分体式开环冷板液冷散热器方案,让用户不惧长时间GPU满功率运行。
图说:宁畅闭式/开式液冷散热方案设计图示
通过定制化,宁畅液冷散热方案可满足GPU产品400-800W范围的散热需求,并可根据客户机房设备条件,选择不同模块化配套制冷机柜进行部署,从而解决客户由于液冷适配而进行外围改造的困扰。
从能效比方面来看,定制液冷方案,节省风扇能耗超60%,噪音降幅达50%以上;而相比高功耗配置的风冷方案,液冷散热方案成本也可控制在仅有15-20%的提升。
关键四:智能制造工艺
AI服务器的生产考验着厂商的自主研发、生产、供应等多方面的能力。
宁畅智能制造产线在超过150个工艺标准维度的指导下,历经上千道工序,完成服务器生产。
智能设备实现亚毫米级精准定位和控制;智能内存、硬盘装配设备,确保安装准确无误。
智能自动AOI光学检测设备,实时捕捉产品质量缺陷,10余秒可完成近千个点的检测判断。
关键五:自动化测试
AI服务器的高性能主要取决于硬件和软件两个层面。而对于技术的整体升级来说,如果想要让AI服务器的硬件性能完全发挥出来,则需要系统化工程支撑。
一台好的AI服务器要历经哪些磨难才能出厂?以宁畅AI服务器为例,每一台的诞生都至少要经过上千项测试,包括电性能测试、板级严谨测试、全面兼容性测试等。其中,仅电性能测试部分就有近20多项测试。此外,还得根据用户需求做特定软件环境与应用场景(包括压力测试)等性能与稳定性测试。
整个过程复杂而庞大。针对这一痛点,宁畅构建了系统的自动化测试体系,让每台服务器经过数千项测试并及时调整Bug,给客户带来了更好的产品和体验。目前,像宁畅一样具备全面自动化测试能力厂商,仅占厂商总数量的2%左右
关键六:按需定制套餐
服务器的定制化是大趋势。当前,随着服务器市场的扩大、应用场景的不断增多,传统IT硬件已经无法满足企业的需求。由此,定制化服务器应运而生。
尤其是一些互联网头部企业,其自身的运维中心就有比较成熟的运维管理平台和软件平台。基于此,通用的硬件、软件等都不适用,只有根据对方的需求来量身定制,才能更好地匹配对方的场景需求。
宁畅工程师介绍,
为满足互联网权威用户的服务器定制化需求,除提供BMC、BIOS配置等深定制服务外宁畅依托完善的产品、技术、工程以及研发平台,针对用户公有云、私有云、搜索、人工智能等应用场景,提供了数十款服务器定制套餐。
这些均符合用户的数据中心配置标准,用户只需选定所需套餐后下单,最大程度降低用户选型与适配成本。
实际案例表明,在没有基站的情况下,AI服务器的GPU总体利用率通常仅为40%。经过人工智能的统一管理后,GPU的利用率提高乐将近一倍,可以达到70%以上,整体资源效率得到巨大提升。
其次,可以减少等待时间并提高模型培训效率。对于多任务处理,AI服务器支持细粒度视频内存分配,最小作用力可以精确到1g。使用GPU共享策略,多人可以共享一张GPU卡,而不会相互影响。
参考链接: