AI-华为云

AI开发平台MODELARTS-管理Lite Cluster节点池:创建节点池

创建节点池当您需要更多节点池时，可单击“创建节点池”新增节点池，参考表1填写参数。华东二区域每个Lite Cluster集群最多可创建15个节点池。西南贵阳一每个Lite Cluster集群最多可创建50个节点池。其他区域每个Lite Cluster集群最多可创建10个节点池。表1 节点池参数说明参数说明节点池名称新建节点池的名称，可自定义。只能以小写字母开头，由小写字母、数字、中划线（-）组成，不能以中划线（-）结尾，不能以-default结尾。实例规格支持CPU、GPU、Ascend三种芯片规格资源，根据实际需要选择。 CPU：通用计算架构，适合通用任务，计算性能较低，适用于轻量级适合通用任务，计算性能较低。 GPU：并行计算架构，适合并行任务，计算性能高，支持多卡分布式训练，适用于深度学习训练、图像处理等场景。 Ascend：专用 AI 架构，适合 AI 任务，计算性能极高，支持多节点分布式部署，适用于AI 模型训练、推理加速等场景。驱动版本当实例规格类型为Snt9b、D310P系列规格时，支持选择驱动版本。操作系统可以指定实例的操作系统。预置镜像：由华为云官方提供的镜像，覆盖华为自研的HCE OS、EulerOS镜像和第三方商业镜像，您可以根据实际需要选择。 Huawei Cloud EulerOS镜像：Huawei Cloud EulerOS（简称HCE）是基于openEuler构建的云上操作系统。HCE打造云原生、高性能、高安全、易迁移等能力，加速用户业务上云，提升用户的应用创新空间，可替代CentOS、EulerOS等公共镜像。华为自研EulerOS镜像：EulerOS是基于开源技术的企业级Linux操作系统软件，具备高安全性、高可扩展性、高性能等技术特性，能够满足客户IT基础设施和云计算服务等多业务场景需求。说明： EulerOS是基于开源操作系统openEuler进行开发的华为内部的操作系统。第三方商业镜像：经华为云严格测试并制作发布，皆已正版授权，能够保证镜像安全、稳定。私有镜像：由用户创建或导入的个人镜像，仅用户自己可见。包含操作系统、预装的公共应用以及用户的私有应用。如果选择“私有镜像”，请提前在镜像服务 IMS创建系统镜像，或者导入私有镜像到IMS，详情可参考镜像服务创建私有镜像。可用区根据实际情况选择“随机分配”或“指定可用区”。可用区是在同一区域下，电力、网络隔离的物理区域。可用区之间内网互通，不同可用区之间物理隔离。随机分配：系统自动分配可用区。指定可用区：指定资源池实例在哪个可用区域。考虑系统容灾时，推荐指定实例在同一个可用区。可设置可用区的实例数。目标实例数选择节点池的节点个数，数量越多，计算性能越强。当“可用区”选择“指定可用区”时，实例数量会根据可用区的数据自动计算，此处无需再次设置。单次创建时，实例数建议不大于30，否则可能触发限流导致创建失败。目标总实例数不能超过节点池集群规模，如果节点池集群规模选择默认，目标总实例数不能超过50，具体请以控制台界面为准。部分区域的部分规格支持整柜购买，此时实例数会显示为“数量*整柜”，购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离，避免通信冲突，在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致，需要一起创建、一起删除。超节点规格，即Snt9b23类型实例规格，支持自定义步长购买，此时实例数会显示为“数量*步长”，购买的实例总数为两者的乘积。步长为每次调整保障配额时的最小单位，在节点绑定场景下每个步长内的节点将作为一个整体，且属于同一批次。虚拟私有云默认为CCE集群所在VPC网络，不可修改。 K8S标签设置附加到Kubernetes对象（比如Pod）上的键值对。最多可以添加20条标签。使用该标签可区分不同节点，可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。污点默认为空。支持给节点加污点来设置反亲和性，每个节点最多配置20条污点。容器引擎容器引擎是Kubernetes最重要的组件之一，负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互，以管理镜像和容器。此处支持选择Docker和Containerd。Containerd和Docker的详细差异对比请见容器引擎。如果CCE集群版本低于1.23，仅支持选择Docker作为容器引擎。如果CCE集群版本大于等于1.27，仅支持选择Containerd作为容器引擎。其余CCE集群版本，支持选择Containerd或Docker作为容器引擎。节点子网选择同一VPC网络下的子网作为节点子网，新创建的节点池将会使用该子网资源。关联安全组用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放通一些端口以保障节点通信。如果不关联安全组将会使用集群中默认的节点安全组规则。资源标签通过为资源添加标签，可以对资源进行自定义标记，实现资源分类。安装后执行脚本请输入脚本命令，命令中不能包含中文字符，需传入Base64转码后的脚本，转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行，不影响Kubernetes软件安装。请不要在安装后执行脚本中使用reboot命令立即重启，如果需要重启，可以使用“shutdown -r 1”命令延迟1分钟重启。节点计费模式用户增加节点数量时，可以打开“节点计费模式”开关，为新创建的节点指定不同于资源池的计费模式或购买时长。不选择时计费信息默认和资源池保持一致。例如用户可以在包周期的资源池中创建按需的节点。若用户不指定该参数，则新扩容的节点计费模式和资源池保持一致。如果新创建的节点计费模式选择包周期，则需要选择勾选新增节点是否自动续费。勾选自动续费后，新增节点到期后会自动续期。如果原节点池的计费模式为包周期，打开“节点计费模式”开关，修改新创建节点的计费说明时，如果计费模式仍为包周期，计费周期不能设置晚于原节点池的计费周期。例如原节点池的计费模式为包周期且6个月以后到期，增加节点数量时，新的节点计费说明选择包周期时，计费周期不能晚于6个月以后。确认配置信息，鼠标移至配置费用，可查看并确认费用明细，确认完成后，单击“确认”。在弹框中确认是否勾选新增节点自动续费，单击“确定”。创建完成可以在节点池管理页面查看已创建的节点池信息。

AI开发平台MODELARTS Lite Cluster资源管理

AI开发平台MODELARTS-Lite Cluster资源开通:Step2 基础权限开通

Step2 基础权限开通基础权限开通需要登录管理员账号，为子用户账号开通使用资源池所需的基础权限。登录统一身份认证服务管理控制台。单击目录左侧“用户组”，然后在页面右上角单击“创建用户组”。填写“用户组名称”并单击“确定”，完成用户组创建。用户组名称只能包含中文、大小写字母、数字、空格或特殊字符(-_)。在操作列单击“用户组管理”，将需要配置权限的用户加入用户组中。单击用户组名称，进入用户组详情页。在权限管理页签下，单击“授权”。图2 “配置权限” 在搜索栏输入“ModelArtsFullAccessPolicy”，并勾选“ModelArtsFullAccessPolicy”。图3 ModelArtsFullAccessPolicy 以相同的方式，依次添加如下权限： ModelArts FullAccess CTS Administrator CCE Administrator BMS FullAccess IMS FullAccess DEW KeypairReadOnlyAccess VPC FullAccess E CS FullAccess SFS Turbo FullAccess OBS Administrator AOM FullAccess TMS FullAccess BSS Administrator 单击“下一步”，授权范围方案选择“所有资源”。单击“确认”，完成基础权限开通。设置权限完成后，单击用户组名称，进入用户组详情页，在授权记录页签下可以查看到已授予的权限。

AI开发平台MODELARTS

AI开发平台MODELARTS-Lite Cluster资源开通:Step5 购买CCE集群

Step5 购买CCE集群由于Lite Cluster资源池依赖于CCE集群来提供容器化的运行环境，并且CCE集群为Lite资源池提供必要的计算、存储和网络资源，所以购买Cluster资源池时，需要选择CCE集群。如果您没有可用的CCE集群，可参考购买Standard/Turbo集群，集群配套版本请参考不同机型对应的软件配套版本。当前仅支持CCE集群1.23&1.25&1.28&1.31版本。CCE 1.28集群版本支持通过控制台、API方式创建，CCE 1.23和CCE 1.25版本支持通过API方式创建，CCE 1.31集群版本支持通过控制台、API方式创建。不同版本的CCE集群创建方式请见Kubernetes版本策略。如果您已有CCE集群，但CCE集群版本低于1.23，则可参考升级集群的流程和方法，建议将集群升级至1.28版本。创建Cluster资源池时，请确保CCE集群为“运行中”状态。

AI开发平台MODELARTS

AI开发平台MODELARTS-Lite Cluster资源开通:计费影响

计费影响在开通Lite Cluster资源后，会产生计算资源的计费。Lite Cluster资源池仅支持包年/包月计费模式，具体内容如表1所示。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源专属资源池使用计算资源的用量。具体费用可参见ModelArts价格详情。包年/包月规格单价 * 计算节点个数 * 购买时长购买Cluster资源池时，需要选择CCE集群，具体费用请参考CCE计费详情。

AI开发平台MODELARTS

AI开发平台MODELARTS-配置kubectl工具:基本原理

基本原理 kubectl通过kubeconfig配置文件获取集群信息，从而与Kubernetes集群的 API服务器进行通信。kubeconfig文件是kubectl访问Kubernetes集群的身份凭证，包含集群连接信息（如API Server 地址、CA证书）、用户认证凭证（如客户端证书、Token）、Context上下文配置（绑定集群、用户及默认命名空间的快捷关联）。通过这些配置信息，kubectl能够实现与Kubernetes集群的交互，并执行各种管理任务。图1 kubectl连接集群

AI开发平台MODELARTS Lite Cluster资源配置

AI开发平台MODELARTS-ModelArts版本配套关系表:ModelArts Standard版本配套关系表

ModelArts Standard版本配套关系表表3 ModelArts Standard版本配套关系表强依赖组件 Ascend Snt9b配套版本 Ascend Snt9b23配套版本 CCE 1.31 1.31 Volcano插件 1.18.3 1.18.3 ModelArts Device-Plugin 7.3.0-20251010094010 7.3.0-20251010094010 os-node-agent（节点故障检测） 7.3.0-20251022115013 7.3.0-20251022115013 metrics-collector（监控指标插件） 7.3.0-20251014104502 7.3.0-20251014104502 Standard模式集群节点操作系统 HCE2.0（推荐）/EulerOS 2.10 HCE2.0 NPU固件&驱动 7.5.0.5.220-24.1.0.3（推荐） 7.1.0.9.220-23.0.6 7.5.0.109.220-24.1.rc3.10（推荐） 7.5.0.108.220-24.1.rc3.9 SFS Turbo Client+ 24.12.01（受限功能） 24.12.01（受限功能） CES Agent 2.8.2.2 2.8.2.2

AI开发平台MODELARTS ModelArts版本发布说明

AI开发平台MODELARTS-ModelArts版本配套关系表:ModelArts Lite Cluster 版本配套关系表

ModelArts Lite Cluster 版本配套关系表表2 ModelArts Lite Cluster版本配套关系表强依赖组件 Ascend Snt9b配套版本 Ascend Snt9b23配套版本 CCE 1.31（推荐）/1.28/1.25/1.23（存量） 1.31（推荐）/1.28/1.25/1.23（存量） Volcano插件 1.18.3 1.18.3 ModelArts Device-Plugin 2.1.53 2.1.53 os-node-agent（节点故障检测） 7.3.0-20251022115013 7.3.0-20251022115013 metrics-collector（监控指标插件） 7.3.0-20251014104502 7.3.0-20251014104502 Lite Cluster模式节点操作系统 HCE2.0（推荐）/EulerOS 2.10 HCE2.0 NPU固件&驱动 7.5.0.5.220-24.1.0.3（推荐） 7.1.0.9.220-23.0.6 7.5.0.109.220-24.1.rc3.10（推荐） 7.5.0.108.220-24.1.rc3.9 SFS Turbo Client+ 24.12.01（受限功能） 24.12.01（受限功能） CES Agent 2.8.2.2 2.8.2.2

AI开发平台MODELARTS ModelArts版本发布说明

AI开发平台MODELARTS-ModelArts版本配套关系表:ModelArts Lite Server版本配套关系表

ModelArts Lite Server版本配套关系表表1 ModelArts Lite Server版本配套关系表强依赖组件 Ascend Snt9b配套版本 Ascend Snt9b23配套版本 Lite Server节点操作系统 HCE2.0（推荐）/Ubuntu22.04 HCE2.0（推荐） NPU固件&驱动 7.5.0.5.220-24.1.0.3（推荐） 7.7.0.9.220-25.2.1（推荐） 7.5.0.108.220-24.1.rc3.9 NPU CANN 8.2.RC1（推荐） 8.0.1 8.2.RC1（推荐） 8.1.RC2 CES Agent 2.8.2.2 2.8.2.2

AI开发平台MODELARTS ModelArts版本发布说明

数智融合计算服务 DATAARTSFABRIC-接口总览

接口总览 Fabric Data主要包含数据处理、数据管理、输入/输出、辅助工具、触发执行五个部分：数据处理：支持丰富的变换操作，如map()、flat_map()、filter()、join()、groupby()等，可对样本进行特征工程和结构化处理。数据管理：提供对数据集的增删改查能力，包括insert()、update()、delete()以及索引创建与删除，支持数据生命周期管理。输入/输出：具备向主流湖仓格式，如Parquet、Iceberg、Data Formation写入数据的能力，实现与数据湖无缝集成。辅助工具：提供schema()、columns()和explain_plan()等元信息查询与执行计划分析功能，便于调试与优化。触发执行：通过execute()、limit()、take()等方法触发实际计算并获取结果，支持懒加载与按需执行。表1 操作类型接口描述 Dataset - 数据处理 (Data Processing) map 对单行输入数据应用一对一函数映射 map_batchs 对批量输入数据应用一对一函数映射 flat_map 对单行输入数据应用一对多函数映射 filter 执行过滤条件，保留满足条件的行 join 多数据集关联 order_by 排序 aggregate 对整个数据集进行聚合 groupby 数据集分组 min 计算指定列的最小值 max 计算指定列的最大值 mean 计算指定列的均值 unique 获取指定列的唯一值列表 select_columns 选取指定列 add_column 添加新列 drop_columns 移除特定列 rename_columns 重命名列 Table - 数据管理 (Data Management) insert 插入数据 delete 删除数据 update 更新数据输入/输出 (Input/Output) write_parquet 写入数据到parquet表 write_iceberg 写入数据到iceberg表辅助工具 (Utility) schema 数据集的schema columns 数据集列名列表 count 返回数据集的行数 explain_plan 打印执行计划 explain_performance 执行并打印详细计划 stats 查看执行的统计信息（查询需事先执行）触发执行 (Action) show 触发执行，并展示结果 execute 触发执行，返回结果 limit 输出最多limit行记录 take 触发执行，返回单行迭代器 take_batch 触发执行，返回批量迭代器父主题： AI Dataset&Table

数智融合计算服务 DATAARTSFABRIC AI Dataset&Table

云搜索服务 CSS-使用Elasticsearch AI搜索实现语义检索:步骤二：启用搜索大模型插件

步骤二：启用搜索大模型插件在Kibana中执行以下命令，启用搜索大模型插件。 PUT _cluster/settings { "persistent": { "pg_search.inference.enable": true } } 返回如下信息，表示成功启用搜索大模型插件。 { "acknowledged" : true, "persistent" : { "pg_search" : { "inference" : { "enable" : "true" } } }, "transient" : { } }