亚马逊推出搭载英伟达H100GPU的新AmazonEC2P5实例助力AI训练与推理
站长之家(ChinaZ.com) 7月27日消息:AWS 用户现在可以访问 AI 训练和推理领域业界基准测试中展示的领先性能。
图片来自NVIDIA
这家云计算巨头正式推出了由英伟达H100Tensor Core GPU 提供支持的新 Amazon EC2 P5 实例。该服务允许用户通过浏览器一键扩展生成式 AI、高性能计算(HPC)和其他应用程序。
据官方介绍,英伟达 H100 GPU 通过包括第四代 Tensor Cores、新的 Transformer 引擎用于加速 LLMs 以及最新的 NVLink 技术(可让 GPU 之间的通信速度达到 900GB/秒)等架构创新提供超级计算级别的性能。
Amazon EC2 P5 实例非常适合训练和运行日益复杂的 LLMs 和计算机视觉模型的推断。这些神经网络驱动着最具挑战性和计算密集型的生成式 AI 应用,包括问题回答、代码生成、视频和图像生成、语音识别等。
P5 实例可以部署在超大规模集群中,称为 EC2 UltraClusters,由高性能计算、网络和云存储组成。每个 EC2 UltraCluster 都是一台强大的超级计算机,使客户能够在多个系统上运行最复杂的 AI 训练和分布式 HPC 工作负载。
因此,客户可以在需要计算节点之间高水平通信的规模应用程序上运行 P5 实例。P5 实例采用由 AWS EFA 提供支持的 petabit 级非阻塞网络,为 Amazon EC2 实例提供 3,200 Gbps 的网络接口。
借助 P5 实例,机器学习应用程序可以使用 NVIDIA Collective Communications Library 来使用多达 20,000 个 H100 GPU。
英伟达 AI Enterprise 可帮助用户充分发挥 P5 实例的潜力,提供包括 100 多个框架、预训练模型、AI 工作流程和用于调整 AI 基础设施的工具在内的全套软件。
英伟达 AI Enterprise 旨在简化 AI 应用程序的开发和部署,解决构建和维护高性能、安全、云原生 AI 软件平台的复杂性。该软件可在 AWS Marketplace 上获得,提供持续的安全监控、定期修补常见漏洞、API 稳定性、企业支持以及访问英伟达 AI 专家的机会。
(举报)
现在动手来体验一下吧,我们创建一个实例。
Sagemaker的实例配置还是比较高的,免费体验版需要选择t2.medium(只有这个实例是免费的),可能是配置比较高,所以,免费套餐的时间才比较短吧,EC2的免费套餐是t2.micro,每个月750小时的体验时间,一年内可以一直开着。
起个名字,然后创建一个IAMrole,选择VPC和subnet,别的选项可以忽略。
点击创建实例。
Pending……得等等。
选中我们的Jupyter然后Open就可以重定向到Jupyter里了。
几分钟体验:用AWSSagemaker训练一个AI模型
AWS有很多免费的服务,常用的EC2,S3,RDS等都支持一年的限量免费服务,Sagemaker也有免费体验的服务。Sagemaker是AWS的机器学习训练平台