华为云计算 云知识 HPC与AI计算集群建设与运维服务-产品介绍

HPC与AI计算集群建设与运维服务-产品介绍

HPC与AI计算集群建设与运维服务
适用于:Linux
商品简介:并行科技为用户构建便捷、稳定的高性能计算集群环境,涵盖操作系统、作业调度系统、并行环境及计算软件的安装部署,提供线上、线下的日常技术支持,帮助用户真正实现简单易用的高性能计算服务。
商品亮点:为用户构建高性能计算集群环境,适用于教育科研、工业制造、气象海洋、生命科学、能源等领域,在国内拥有300套集群建设及维护经验,近50000台服务器提供服务。
HPC与AI计算集群建设与运维服务
商品说明
版本: V1.0 交付方式: 人工服务
适用于: Linux 上架日期: 2020-07-16 03:36:52.0
并行科技联手华为云,为您构建便捷、稳定的 高性能计算 集群环境。 帮助客户合理设计满足当下和未来需求的HPC集群环境,根据用户的不同需求,提供集群设计、环境搭建、集群在线服务门户、应用运行特征采集分析工具等服务。同时,并行科技将为客户提供多年的HPC建设及维护经验,帮助用户“买好”、“用好”华为云资源,并通过在线技术服务,实现“响应及时、保障有力”,为用户使用HPC环境保驾护航。 更多关于HPC计算服务与技术支持,可以访问北京并行科技股份有限公司超算云服务平台:www.paratera.com 1) 平台设计:协助客户完成集群设计,提供环境配置建议 2) 集群实施:提供HPC集群实施建设服务、性能测试服务 3) 软件安装:提供常用计算软件的的安装、部署、调试服务 4) 超算云平台: 提供专属的HPC云服务门户,实现桌面化图形操作 5) 性能分析工具:全面采集并实时展示集群的性能状态,快速定位瓶颈 6) 运维服务:根据需求提供7*24小时在线服务、巡检服务 行业应用概况: • 教育科研:清华大学、南京大学等 • 工业制造:长安汽车、北京汽车、航天某院等 • 气象海洋:中国气象局、海洋地质调查局等 • 生命科学:中科院微生物所、北京协和医院等 • 能源:中石油、中石化等 1) HPC平台设计 通过对用户计算应用程序进行科学、系统的分析,并结合并行科技积累多年的应用运行特征库,以及资深的系统架构师的设计经验,从而设计出最符合当前计算应用、最均衡的HPC集群,避免产生系统短板,导致资源浪费,最大化地提升华为云系统运行效率,花最少的钱,办最多的事。 2) HPC集群实施 并行科技为用户提供集群系统安装、配置及培训等相关工作,帮助客户建成一套可用且高效的HPC集群系统。旨在高效、快捷、稳定的交付集群系统。结合众多用户的使用需求,高效集成集群管理软件、资源调度系统、并行文件系统和各种并行环境。 • 集群管理软件:Xcat集群系统自动推送、用户管理等基础功能 • 操作系统:CentOS主流版本 • 作业调度系统:Slurm(可提供LSF、PBS Pro商业调度系统的安装部署,需用户提供LIC授权) • 文件系统:NFS/lustre(根据架构设计进行安装部署) • 编译软件:GUN编译器,包括gcc、g77、gfortran等编译环境 (可提供商业编译器的安装部署,需用户提供LIC授权) • 并行环境:Openmpi、Mpich等主流版本,支持常用数学库的安装部署,如Blas、FFTW等 3) 软件安装: 并行科技可以根据客户需求,提供计算软件的安装部署服务(商业软件需用户提供安装包及lic授权)。 支持如:ANSYS、Fluent、Lammps、WRF、VASP、NAMD、Gromacs、Gaussian、ATK、Material-Studio等常见的HPC应用程序。 4) 超算云平台:ParaCloud 为用户提供在线的超算云平台,计算用户可以通过浏览器访问HPC集群环境,实现实现图形化、一键式系统登录和作业提交。 面向业务用户: • 桌面化操作,提高平台的易用性 • 统一WEB访问入口同时访问集群资源,避免记忆多个IP及账号密码 • 可以自助申请应用及SSH权限,按需使用 • 前后处理一体化,减少数据搬运成本 • 通过应用模板一键提交作业,一站式管理 • 支持WEBSSH访问资源方式 • 可扩展使用国家超算中心的资源 面向管理员: • 实现集群的统一用户认证,较少用户管理压力 • 实现计算资源、应用资源的统一监管 • 支持多种调度系统,既能满足标准要求,也能满足特殊需求 • 应用服务SAAS化,全生命周期管理 • 能够根据用户权限及申请需求,分配SSH及应用的使用权,统一管理 5) 性能分析工具:Paramon 应用运行特征采集与分析软件可实现大规模集群的实时性能监控、应用运行特征性能数据采集历史留存、并进行应用运行特征分析。秒级监控集群和应用的系统级、微架构级等性能指标,智能分析性能异常,实时告警,通过性能数据实时监控,及时发现大规模集群性能异常情况,第一时间处理,保证集群高效运行;通过应用运行特征性能数据采集与分析,定位应用系统瓶颈以优化系统。另外,积累应用运行特征数据,为集群扩容或新建选型提供依据指标。 • 一键显示异常节点,快速排查集群异常 • 按用户作业维度,快速定位查看作业状态 • 同一界面多级指标关联分析,快速定位性能瓶颈 • 智能分析作业性能,主动推送异常告警 6) 运维服务 为最终客户提供集群查排故障、运维支持等人工服务,建设客户IT维护成本,能够充分利用高性能计算资源,最大程度降低运营风险,确保系统稳定、健康运行。 • 分担管理压力,弥补运维力量不足的问题 • 专家服务团队为客户解答各类疑难问题 • 定期从不同角度分析集群健康状态 • 用户专注科学研究工作,避免运维问题分散精力
查看详情

云商店免费试用中心

立即体验
云耀云服务器 HECS 2核4G 免费体验