零代码将AI应用迁移到生产环境!解读英特尔的AI软件布局
芯东西(ID:aichip001)文 | 心缘
芯东西4月21日消息,在单机环境中,构建人工智能(AI)模型对数据科学家来说不算难事,但如何很方便地将整个分布式架构构建起来、将AI模型应用到生产数据中,却令许多数据科学家感到头疼。
把应用从笔记本电脑搬到生产环境的过程相当漫长。在笔记本电脑上用样本数据构造出原型后,需在集群上利用历史数据去运行模型试验,然后再在生产环境中将这个算法部署上线。
在此过程中,很多时候数据科学家不得不重写代码、进行模型转换、数据传输与拷贝等工作,工作量非常大。
那么能不能构建一个端到端的流水线,几乎无需修改任何代码,就可以无缝、自动化地将AI应用从笔记本电脑搬到分布式环境中呢?
这是英特尔大数据分析和人工智能创新院正着力实现的愿景。自去年6月在中国成立以来,该创新院一直致力于通过优化的库、软件与工具组合,真正提高数据分析和AI落地在实际生产环境中的效率。
近日,通过对话英特尔大数据技术全球CTO、大数据分析和人工智能创新院院长戴金权,我们试图看清英特尔在人工智能软件布局上,究竟在下怎样一盘棋?
▲英特尔大数据技术全球CTO、大数据分析和人工智能创新院院长戴金权
01创新院应用研究的三驾马车
英特尔希望构建一个统一大数据分析和AI的端到端流水线,可以直接访问生产数据,当用户需要将AI应用从笔记本电脑迁移到大型集群进行分布式训练或推理时,几乎不需要修改任何代码。
为了实现这一愿景,英特尔大数据分析与人工智能创新院的方法是应用研究,具体而言有三驾马车:前沿技术研究、开源软件平台、实际应用落地。
前沿技术研究可分为两个阶段,早期研究如何在大数据平台上高效构建深度学习应用,下一步研究则侧重于在大数据环境下更好地将AI进行自动化和无缝扩展。
据戴金权透露,在今年6月的CVPR学术会议上,英特尔大数据分析和人工智能创新院将对其最新工作进行一个阶段性报告,主要工作即是如何在分布式大数据环境中,将机器学习工作流自动化地构建出来。
开源软件平台包括基于Apache Spark的分布式高性能深度学习框架BigDL和统一的大数据分析+人工智能平台Analytics Zoo。
BigDL与TensorFlow、Caffe等框架的功能类似,能在现有的Hadoop和Spark集群上构建各种数据分析和深度学习应用。Analytics Zoo则被定位为一个框架之上的软件平台,主要特点是支持各种不同的深度学习框架和大数据框架、库和工具。
这些平台在利用硬件计算能力的同时,也通过构建开源生态系统能实现更加自动化、无缝的感知,更好地帮助用户解决问题。
很多英特尔的用户、客户和合作伙伴已采用此类开源软件平台,戴金权举了一些最新的国内外实际应用落地案例。
在国内,Analytics Zoo已集成于阿里云E-MapReduce服务上,该服务可直接运行深度学习应用。在去年的阿里云天池大赛上,英特尔还曾利用Flink加上Analytics Zoo来提供实时的垃圾分类检测的工作。
Analytics Zoo也集成在腾讯云智能钛机器学习TI-ONE平台当中,提供各种基于大数据的深度学习的数据处理和分析。
东软将基于AutoML时间序列分析的功能集成在其应用性能管理产品RealSight APM中,为他们的用户提供应用性能的管理和分析。
金风慧能基于Analytics Zoo构建AI应用,将部分地区功率预测准确率从60%提升到80%以上,从而达到节能的效果。
在国外,Analytics Zoo已集成于美国IBM Cloud Pak for Data中,美国万事达(Mastercard)基于Analytics Zoo和BigDL构建了深度学习推荐服务,欧洲原子研究机构CERN基于Analytics Zoo 和 BigDL 构建了大型强子对撞机的实时事件过滤器;韩国最大的电信公司SK Telecom基于Analytics Zoo构建了智能通讯网络管理。
02Analytics Zoo的三层功能
Analytics Zoo构建在英特尔oneAPI底层的软件层上,以此为基础提供三层功能。
第一层是统一的数据分析和AI流水线,可提供相对水平的流水线,帮用户将AI、深度学习可以扩展到大规模分布式的大数据环境当中。
在这一层中,Analytics Zoo将TensorFlow、Keras、PyTorch、BigDL、Spark、Flink等框架有机整合在一起,当用户想针对其应用需求采用适合的处理方式时,能更加灵活地构建端到端的工作流。
例如SK Telecom、Mastercard等使用Analytics Zoo在Spark上运行大规模分布式TensorFlow来处理他们的数据。
第二层是一个自动化的机器学习工作流,能够通过AutoML等自动化方法帮助用户构建下层的流水线。东软、腾讯云等客户均与英特尔合作使用这样的功能。
最上层针对不同应用场景,提供相应的模型和算法,用户也可以在Analytics Zoo平台上使用任何标准的深度学习框架,包括TensorFlow、PyTorch等。
03从整体软件布局看英特尔的AI底气
在人们的印象中,英特尔是一家硬件技术实力雄厚的芯片公司,但它在人工智能软件领域的严密布局同样不容小觑。
第一,从研究角度来看,国内外的英特尔研究院进行均做了很多相对中长期的AI算法等研究。例如英特尔中国研究院在计算机视觉领域开展了许多前沿研究。戴金权介绍说,英特尔在AI算法研究方面有非常大的投入。
第二,除了研究之外,英特尔很多工作针对中期到近期的软件栈,包括将AI软件栈很好运行在CPU、GPU、FPGA、ASIC等不同硬件架构上的统一编程模型oneAPI、各种针对深度学习的计算库、对TensorFlow、PyTorch、MXNet等开源框架的各种优化以及OpenVINO推理引擎等方面的工作。
戴金权告诉芯东西,为了让用户通过oneAPI能将模型无缝运行在不同架构平台上,英特尔在工具、编译器、库等层面都做了非常多的工作,我们在性能上我们还是很有信心的,能够做到在不同的架构上做到最优或者是比较好的性能提升。
第三,在此基础之上,英特尔试图为用户构建一个方便高效的端到端平台,能够扩展到大数据、大规模集群上,并且可以非常透明的扩展到不同硬件架构上,将特征工程、超参数调整、模型选择和分布式推理等许多原来需要人工完成的工作,通过机器学习的方式将其自动化,从而大幅提升生产效率和模型准确率,更好提升应用级别的服务。
接下来,英特尔将继续探索基于一些较重要的应用场景,构建更贴近用户最终应用的解决方案。
04结语:软硬件协同加速AI高效落地
在我们看来,软硬件协同才可以真正能够将硬件或芯片的计算能力发挥到极致。戴金权说。
很多用户面临的核心问题,不是跑什么硬件、用什么深度学习框架,而更多是应用层面的问题。
英特尔以底层的硬件创新为基石,经过基础软件和平台软件的中间层次,最后在应用软件层次帮助企业用户解决核心问题。
如今越来越多企业正将大数据分析和AI应用于生产、运营等多个环节,而像英特尔这样软硬件协同创新的解决方案,不仅有助于降低企业数字化转型的门槛,也为提升AI应用落地效率按下了加速键。