解决方案实践

基于Slurm构建泛HPC场景云上云下资源协同解决方案

基于Slurm构建泛HPC场景云上云下资源协同解决方案

该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox构建弹性伸缩能力,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。Slurm工作节点云服务器采用无配置模式,Gearbox程序与弹性伸缩 AS及云监控服务CES对接,通过监控Slurm集群作业Job状态,实时自动弹性扩缩容Slurm集群环境,并自动完成弹性扩容出来的云服务器注册并加入集群或从集群注销并完成实例销毁。

该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox构建弹性伸缩能力,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。Slurm工作节点云服务器采用无配置模式,Gearbox程序与弹性伸缩 AS及云监控服务CES对接,通过监控Slurm集群作业Job状态,实时自动弹性扩缩容Slurm集群环境,并自动完成弹性扩容出来的云服务器注册并加入集群或从集群注销并完成实例销毁。

适用客户

科研院所按需扩容科研算力加速科研运算落地 | 制造企业弹性调配峰值算力满足工业仿真计算 | 算力服务商快速搭建弹性 HPC 集群赋能算力服务输出

方案优势

方案优势

动态扩缩容

该解决方案配置弹性伸缩组,服务器内置Gearbox程序,该程序可周期性监测集群指标上报云监控服务CES,由CES告警规则触发AS自动扩缩容。

个性定制化

该解决方案及内置Gearbox程序均为开源,用户可以免费用于商业用途,并可以在源码基础上进行定制化开发。

开箱即用、极速部署

一键轻松部署,即可完成弹性扩缩容的HPC集群环境部署。

架构与部署

部署描述

该解决方案基于开源软件Slurm及华为云自研开源软件Gearbox构建弹性伸缩能力,快速帮助用户在华为云上完成可自动弹性伸缩的HPC环境搭建。 本方案的架构包括以下基础设施和云服务: 

1. 弹性云服务器 ECS,用于安装Slurm、Gearbox应用。

2. 弹性公网IP EIP,用于提供访问公网和被公网访问能力。

3. 镜像服务 IMS,用于弹性扩容时使用该镜像初始化环境。

4. 弹性伸缩 AS,用于集群实例资源的弹性扩缩容。

5. 云监控 CES,用于Gearbox程序监测集群状态,上报指标到云监控服务。

6. 弹性文件服务 SFS,为集群环境提供共享文件存储服务。

预估费用:20元

温馨提示:仅在默认配置、一次完整流程(约 2 h)内计费。若自行升级实例规格、延长运行时间或产生额外流量,费用将按实际使用累计,可能超过预估费用。

部署时长:30分钟

应用场景

应用场景

高性能计算 HPC 集群场景

满足气象模拟、流体力学仿真、工业数值计算、算力调度等大规模并行计算需求,按需自动增减算力节点,降低闲置资源成本。

大数据批量处理场景

支撑海量数据分析、离线数据运算、批量数据清洗与算力任务调度,依据任务量弹性调配服务器资源,提升数据处理效率。

科研算力调度场景

适配高校科研实验、生物医药建模、材料研发、AI 模型训练等科研算力需求,自动匹配作业负载灵活扩缩集群,保障科研任务稳定运行。

解决方案实践拓展

解决方案实践拓展

基于CCI的CCE容器集群极致弹性转换架构

搭建一套云容器引擎 CCE集群并部署WordPress应用

快速构建高可用Pulsar集群

基于开源项目Pulsar构建,可以帮助您在华为云上快速构建高可用Pulsar集群

快速构建基因测序环境

基于开源软件Slurm及Gearbox构建,快速帮助用户在华为云云服务器上完成基因测序HPC环境的部署