检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每次训练过程中的性能(image/sec)。 apiVersion: "kubeflow.org/v1"
集群网络模型选择及各模型区别 自研高性能商业版容器网络插件,支持容器隧道网络、VPC网络、云原生网络2.0网络模型: 集群创建成功后,网络模型不可更改,请谨慎选择。 容器隧道网络(Overlay):基于底层VPC网络构建了独立的VXLAN隧道化容器网络,适用于一般场景。VXLAN
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
PU Share等特性的支持,进一步提升kubeflow批量训练和推理的效率。 实现典型分布式AI训练任务 下面将展示如何基于Kubeflow和Volcano,并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。 登录CCE控制台,单击集群名称进入一个集群。 在CCE集群上部署Volcano环境。
VPC网络模型说明 VPC网络模型 VPC网络模型将虚拟私有云VPC的路由方式与底层网络深度整合,适用于高性能场景,但节点数量受限于虚拟私有云VPC的路由配额。在VPC网络模型中,容器网段独立于节点网段进行单独设置。在Pod IP地址分配时,集群中的每个节点会被分配固定大小的Pod
使用量等资源指标是动态变化的,如何做到准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。 节点中没有被分配的空闲成本,是如何处理的? 节点中的空闲成本不会
绑定弹性公网IP等特性。由于不需要使用容器隧道封装和NAT地址转换,云原生网络2.0模型与容器隧道网络模型和VPC网络模型相比具有更高的网络性能。 图1 云原生网络2.0 在云原生网络2.0模型的集群中,Pod依赖弹性网卡(ENI)/辅助弹性网卡(Sub-ENI)对外进行网络通信:
性能稳定:独占整个物理NPU芯片,可以有效避免多任务竞争带来的资源抖动,保障模型训练/推理的稳定性和一致性。 提升训练效率:对于大规模模型或计算密集型任务,芯级独占调度可以避免上下文切换和带宽干扰,从而提升训练效率和吞吐能力。 本文将进一步为您介绍如何使用NPU芯级调度。 前提条件 已创建NPU类型节点,具体请参见创建节点。
容器隧道网络模型说明 容器隧道网络模型 容器隧道网络是在主机网络平面的基础上,通过隧道封装技术来构建一个独立的容器网络平面。CCE集群容器隧道网络使用了VXLAN作为隧道封装协议,并使用了Open vSwitch作为后端虚拟交换机。VXLAN是一种将以太网报文封装成UDP报文进行隧道传输的协议,而Open
景包括: AI模型训练:支持多卡并行和精细化资源调度,提升大规模模型训练效率与稳定性。 AI推理与在线服务:提供低延迟、按需分配的算力支持,保障推理任务的实时性与服务可用性。 资源隔离环境:通过vNPU管理实现资源粒度划分,满足多用户场景下的算力隔离与配额控制。 训练任务监控与资
容器隧道网络模型 容器隧道网络模型说明 父主题: 容器网络
云原生网络2.0模型 云原生网络2.0模型说明 添加/删除CCE Turbo集群的默认容器子网 使用注解为Pod绑定安全组 使用安全组策略为工作负载绑定安全组 使用容器网络配置为命名空间/工作负载绑定子网及安全组 为Pod配置固定IP 为Pod配置EIP 为Pod配置固定EIP 为IPv6双栈网卡的Pod配置共享带宽
容器网络模型对比 容器网络为集群内Pod分配IP地址并提供网络服务,CCE支持如下几种网络模型,您可在创建集群时进行选择。 云原生网络2.0模型是自研的新一代容器网络模型,深度整合了虚拟私有云VPC的弹性网卡(Elastic Network Interface,简称ENI)和辅助弹性网卡(Sub
VPC网络模型 VPC网络模型说明 扩展VPC网络集群的容器网段 父主题: 容器网络
云原生AI套件概述 云原生AI套件以华为云CCE服务为基础,为您提供开箱即用的AI训练与推理全流程的解决方案,涵盖AI资源管理、AI负载调度、AI任务管理、AI数据加速及AI服务部署等服务,提供端到端的全栈支持与优化。 图1 云原生AI套件架构图 AI资源管理 CCE AI套件(NVIDIA
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
AI推理网关插件 随着大规模语言模型(LLM)及人工智能(AI)推理服务的迅猛发展,云原生AI团队面临着愈加复杂的推理流量治理难题。在AI推理应用场景中,除了传统的基于HTTP路径和协议的流量路由外,还需根据“模型名称”、“推理优先级”以及“模型版本”等AI业务属性,灵活地进行流
结果。通过组织多个Run,用户可以分析不同参数和配置对模型表现的影响,从而进行更精细化的模型调优和性能优化。 Component 是Pipeline中的最小单元,代表一个特定的机器学习任务或步骤,如数据预处理、模型训练、模型评估等。每个Component都是一个容器,包含执行该任务所需的代码和依赖。
LeaderWorkerSet插件适用于以下场景: LLM分布式推理服务:适用于各种需要高性能、高吞吐量的大模型推理场景。例如,在线问答、文本生成、对话机器人、AI 辅助创作等。 高性能多节点推理加速:支持vLLM、SGLang等主流AI推理框架,能够充分利用多节点的计算资源,加速推理过程。尤其适用于对推理时延有
Deployment 模型模板 AI推理框架插件已内置针对主流AI模型的预定义部署模板,用户无需手动编写复杂配置文件,可通过声明式API直接调用模板并快速部署模型。模板中已适配常见模型的参数、资源需求及硬件配置,能够有效降低部署的门槛。 该插件已提供以下主流模型的预置模板,您可以参考模型部署示例,部署并使用相关模型。