Loading...

推出AWS并行计算服务,以便在几乎任何规模上运行HPC工作负载 新闻博客



AWS推出平行计算服务,支援大规模HPC工作负载

主要要点

AWS推出全新管理服务AWS Parallel Computing Service (AWS PCS),专为高效能计算HPC工作量设计。利用AWS PCS,客户可设定并管理HPC丛集,快速进行模拟,无需担心基础架构。AWS PCS支援Slurm排程器,方便使用者在熟悉的环境中操作。可透过AWS管理控制台、AWS SDK及命令行介面进行存取和创建丛集与计算节点群组。

今天,我们很高兴地宣布AWS平行计算服务AWS PCS,这是一项新的管理服务,旨在帮助客户设置和管理高性能计算HPC丛集,让他们能够在AWS上以几乎任何规模流畅地运行模拟。客户可以使用Slurm排程器,在熟悉的HPC环境中工作,缩短结果交付时间,无需担心基础设施问题。

在2018年11月,我们推出了AWS ParallelCluster,这是一个由AWS支持的开源丛集管理工具,帮助用户在AWS云中快速部署和管理HPC丛集。这让客户能够快速构建和部署概念验证和生产级HPC计算环境,但客户需自行负责更新,这可能包括关闭及重新部署丛集。许多客户因此请求我们提供一个完全管理的AWS服务,以减轻建立和运行HPC环境的操作工作。

AWS PCS简化了AWS管理的HPC环境,并透过AWS管理控制台、AWS SDK及AWS命令行介面CLI进行存取。您的系统管理员可以创建使用其计算和储存配置、身份以及作业分配偏好的管理Slurm丛集。AWS PCS利用Slurm这个广泛应用于HPC客户的高可扩展性、容错性作业排程器来安排和协调模拟。科学家、研究人员和工程师等最终用户能够登录到AWS PCS丛集,运行和管理HPC工作。

加速器电脑版

您可使用完全管理的NICE DCV远程桌面进行视觉化,并访问作业遥测或应用程序日志,以使专家能够在一个地方管理HPC工作流程。

开始使用AWS平行计算服务

要试用AWS PCS,您可以参考我们关于创建简单丛集的指引。首先,您需要使用AWS CloudFormation模板在您的AWS帐户中创建一个虚拟私有云VPC,并在指定的AWS区域内设置共享储存空间。

1 创建丛集在AWS PCS控制台中,选择创建丛集,这是一个持久资源,用于管理资源和运行工作负载。

接下来,输入丛集名称,并选择Slurm排程器的控制器大小。您可以选择小型最多32个节点和256个作业、中型最多512个节点和8192个作业或大型最多2048个节点和16384个作业以设定丛集工作负载的上限。在网络部分,选择您刚创建的VPC、用于启动丛集的子网和施加于丛集的安全组。

选择创建丛集。丛集的配置需要一些时间。

2 创建计算节点群组在创建丛集后,您可以创建计算节点群组,这是AWS PCS用来提供对丛集的互动访问或运行作业的虚拟集合。定义计算节点群组时,指定一些共同特征,如EC2实例类型、最小和最大实例数量、目标VPC子网、Amazon机器映像AMI及启动配置。计算节点群组要求一个实例配置档,以便将AWS身份和访问管理IAM角色传递至EC2实例,以及一个AWS PCS用于配置其启动的EC2实例的启动模板。

若要在控制台中创建计算节点群组,转到您的丛集,并选择计算节点群组选项卡及创建计算节点群组按钮。

您可以创建两种计算节点群组:一个供最终用户访问的登录节点群组,和一个用于运行HPC作业的实际计算节点群组。

3 创建并运行您的HPC作业在创建计算节点群组后,您可以将作业提交到队列中以运行。作业在队列中保留,直到AWS PCS根据可用的配置容量将其安排在一个计算节点群组中。

要在控制台中创建队列,转到您的丛集,选择队列选项卡和创建队列按钮。

您需要输入队列名称及分配给队列的计算节点群组。

选择创建,并在队列创建过程中耐心等待。

当登录计算节点群组启动后,您可以使用AWS系统管理器连接到它创建的EC2实例。进入Amazon EC2控制台,选择登录节点群组的EC2实例。

要使用Slurm运行作业,您需要准备一个提交脚本,指定作业需求,并使用sbatch命令将其提交到队列。通常,这是在共享目录中完成,以便登录和计算节点能够共同访问文件。

您也可以在AWS PCS中使用Slurm运行消息传递接口MPI作业。

请注意的事项

Slurm版本 AWS PCS初期支持Slurm 2311,并提供机制以便客户在新版本发布后升级Slurm版本。容量保留 您可以使用按需容量保留在特定可用区中保留EC2容量,以确保在需要时拥有必要的计算容量。网络文件系统 您可以连接网络存储卷,这些卷可供写入和访问数据和文件,包括Amazon FSx for NetApp ONTAP、Amazon FSx for OpenZFS及Amazon档案快取等,还有AWS EFS和Amazon FSx for Lustre等。

现已上线

AWS平行计算服务现已在美国东部北维吉尼亚、美国东部俄亥俄州、美国西部俄勒冈州、亚太新加坡、亚太悉尼、亚太东京、欧洲法兰克福、欧洲爱尔兰、欧洲斯德哥尔摩等地区提供服务。

试试AWS PCS,并向AWS rePost或通过您的AWS支持联络人反馈意见。

Channy

推出AWS并行计算服务,以便在几乎任何规模上运行HPC工作负载 新闻博客

您在完成丛集及节点群组的HPC作业后,应删除所创建的资源,以避免不必要的收费。

安易官网提供卓越的全球连线,轻松实现一键加速体验。作为官方平台,确保高速稳定的网络连接,轻松解决跨区域访问障碍。