云服务器内容精选
-
快速部署 本章节帮助用户高效地部署“快速体验智能问数”解决方案。一键部署该解决方案时,参照本章节中的步骤和说明进行操作,即可完成快速部署。 表1 参数说明(云服务器单机部署) 参数名称 类型 是否可选 参数解释 默认值 vpc_name string 必填 虚拟私有云名称,该模板使用新建VPC,不允许重名。取值范围:1-57个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点)。 intelligent-data-insight_demo secgroup_name string 必填 安全组名称,该模板使用新建安全组。请参考安全组规则修改进行配置。取值范围:1-64个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点)。 intelligent-data-insight_demo rds_name string 必填 云数据库RDS名称,不支持重名。取值范围:实例名称长度最小为4字符,最大为64个字符且不超过64字节(注意:一个中文字符占用3个字节),必须以字母或中文开头,区分大小写,可以包含字母、数字、中划线、下划线或中文,不能包含其他特殊字符。 intelligent-data-insight_demo db_type string 必填 云数据库RDS引擎,取值:MySQL、PostgreSQL、SQLServer。 MySQL rds_flavor string 必填 云数据库RDS规格,该方案默认创建单机版。RDS for MySQL默认rds.mysql.n1.large.2(2U4G)。RDS for PostgreSQL默认rds.pg.n1.large.2(2U4G)。RDS for SQL Server默认rds.mssql.spec.n1.se.large.2(2U4G)。其他规格参考请参考: RDS for MySQ L实例 规格 RDS for PostgreSQL实例规格RDS for SQL Server实例规格 rds.mysql.n1.large.2 rds_port number 必填 云数据库RDS连接端口,RDS for MySQL数据库端口范围为1024~65535(不包括12017和33071,该端口被RDS系统占用,不能使用)。默认值为3306。RDS for PostgreSQL数据库端口范围为2100-9500。默认值为5432。RDS for SQL Server数据库端口范围为:1433,2100-9500,不包括5355和5985。 3306 rds_volume_size number 必填 云数据库RDS实例存储空间大小,默认存储盘类型为SSD云盘,取值范围:40-4,000,必须为10的整数倍。 40 rds_password string 必填 云数据库RDS登录密码,初始密码为该密码。取值范围:8-32个字符,包含大小写字母、数字和特殊字符(~!#%^*-_=+?)。 空 db_account_name string 必填 云数据库RDS自定义只读用户名称,不支持重名。取值范围:实例名称长度最小为4字符,最大为64个字符且不超过64字节(注意:一个中文字符占用3个字节),必须以字母或中文开头,区分大小写,可以包含字母、数字、中划线、下划线或中文,不能包含其他特殊字符。 readonly_user db_account_password string 必填 云数据库RDS自定义只读用户登录密码。取值范围:8-32个字符,必须至少包含大写字母、小写字母、数字和特殊字符(~!@#%^*-_=+?,)中的其中三种。 空 db_name string 必填 数据库名称。由字母、数字和下划线组成,长度为1~63个字符。不能以pg或数字开头,且不能与RDS for PostgreSQL模板库名称相同。RDS for PostgreSQL的模板库包括postgres、template0和template1。不能以RDS for SQL Server系统数据库名称开头或结尾。RDS for SQL Server系统数据库包括master、msdb、model、tempdb、resource和rdsadmin。 business_db dify_version string 必填 Dify应用开发平台社区版版本,支持v1.1.3、v0.15.3及v0.15.2。 0.15.3 dify_ecs_name string 必填 Dify平台云服务器名称,不允许重名。取值范围:1-54个字符组成,包括字母、数字、下划线 (_)、连字符 (-) 和句点 (.)。 intelligent-data-insight_dify_ecs_demo dify_ecs_flavor string 必填 Dify平台云服务器实例规格,支持弹性云服务器 E CS 及华为云Flexus 云服务器X实例。Flexus 云服务器X实例规格ID命名规则为x1.?u.?g,例如2vCPUs4GiB规格ID为x1.2u.4g,具体华为云Flexus 云服务器X实例规格请参考控制台。弹性云服务器规格名称,具体请参考官网弹性云服务器规格清单。 x1.8u.16g dify_password string 必填 Dify平台云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 空 dify_system_disk_size number 必填 Dify平台云服务器系统盘大小,磁盘类型默认为高IO,单位:GB,取值范围为40-1,024,不支持缩盘。 100 dify_eip_size number 必填 Dify平台云服务器弹性公网带宽大小,该模板计费方式为按流量计费。单位:Mbit/s,取值范围:1-300Mbit/s。 300 db_query_ecs_name string 必填 数据库接口云服务器名称,不允许重名。取值范围:1-54个字符组成,包括字母、数字、下划线 (_)、连字符 (-) 和句点 (.)。 intelligent-data-insight_db_query_demo db_query_ecs_flavor_id string 必填 数据库接口云服务器实例规格,支持弹性云服务器 ECS及华为云Flexus 云服务器X实例。Flexus 云服务器X实例规格ID命名规则为x1.?u.?g,例如2vCPUs4GiB规格ID为x1.2u.4g,具体华为云Flexus 云服务器X实例规格请参考控制台。弹性云服务器规格名称,具体请参考官网弹性云服务器规格清单。 x1.2u.4g db_query_password number 必填 数据库接口云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 空 db_query_eip_size number 必填 数据库接口云服务器弹性公网带宽大小,该模板计费方式为按流量计费。单位:Mbit/s,取值范围:1-300Mbit/s 300 charging_mode string 必填 计费模式,默认自动扣费,取值为prePaid(包年包月)或postPaid(按需计费)。 postPaid charge_period_unit string 必填 计费周期单位,当计费方式设置为prePaid,此参数是必填项。有效值为:month(包月)和year(包年)。 month charge_period number 必填 计费周期,当计费模式设置为prePaid,此参数是必填项。可选值为:1-3(year)、1-9(month)。 1 登录华为云解决方案实践,选择“快速体验智能问数”,支持区域下拉选择部署的区域(以北京四区域为例),单击“一键部署”,跳转至解决方案创建资源栈界面。 图1 解决方案实施库 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考表1 参数填写说明完成自定义参数填写,单击“下一步”。 图3 配置参数 (可选,如果使用华为主账号或admin用户组下的 IAM 子账户可不选委托)在资源设置界面中,在权限委托下拉框中选择“rf_admin_trust”委托,单击“下一步”。 图4 委托设置 在配置确认界面中,单击“创建执行计划”。 图5 配置确认 在弹出的创建执行计划框中,自定义填写执行计划名称,单击“确定”。 图6 创建执行计划 单击“部署”,并且在弹出的执行计划确认框中单击“执行”。 图7 执行计划 图8 执行计划确认 (可选)如果计费模式选择“包年包月”,在余额不充足的情况下(所需总费用请参考资源和成本规划中对应一键部署云服务所需的包年包月费用表)请及时登录费用中心,手动完成待支付订单的费用支付。 待“事件”中出现“Apply required resource success”,表示该解决方案已经部署完成。 图9 部署完成 刷新页面,在“输出”中查看访问链接(Dify-LLM应用开发平台访问链接、后端数据库查询链接)和 导入Dify工作流DSL文件链接,堆栈部署成功后,约等待5-10分钟左右(受网络波动影响)即可登录Dify平台。 图10 说明 父主题: 实施步骤
-
安全组规则修改(可选) 该解决方案使用80端口用来访问Dify,默认全放通,请参考修改安全组规则,配置IP地址白名单。 该解决方案使用22端口用来以SSH方式远程登录云服务器,若需远程登录云服务器,请参考修改安全组规则,配置IP地址白名单,以便能正常访问服务。 该解决方案部署成功后,环境初始化预计5分钟左右,受网络、带宽影响,部署时间会有波动部署完成之后方可正常访问。 安全组实际是网络流量访问策略,包括网络流量入方向规则和出方向规则,通过这些规则为安全组内具有相同保护需求并且相互信任的云服务器、云容器、云数据库等实例提供安全保护。 如果您的实例关联的安全组策略无法满足使用需求,比如需要添加、修改、删除某个TCP端口,请参考以下内容进行修改。 添加安全组规则:根据业务使用需求需要开放某个TCP端口,请参考添加安全组规则添加入方向规则,打开指定的TCP端口。 修改安全组规则:安全组规则设置不当会造成严重的安全隐患。您可以参考修改安全组规则,来修改安全组中不合理的规则,保证云服务器等实例的网络安全。 删除安全组规则:当安全组规则入方向、出方向源地址/目的地址有变化时,或者不需要开放某个端口时,您可以参考删除安全组规则进行安全组规则删除。
-
Dify平台连接数据库 创建http请求节点,并输入快速部署步骤10数据库服务端暴露的API地址。 图10 创建http请求节点 填写数据库服务端API信息,API请求类型选择“POST”,URL链接为数据库服务端暴露的API地址,HEADERS添加键为“Content-Type”,值为“application/json”,BODY选择“JSON”,并如图11填写JSON信息。 图11 配置http请求节点
-
数据库导入数据并测试 进入云数据库 RDS控制台,选择一键部署时创建的RDS for MySQL数据库,选择“登录”。 图12 登录数据库 图13 使用root用户登录MySQL数据库 如果选择PostgreSQL数据库引擎,需要给readonly_user用户赋予只读权限,如果选择MySQL或者SQLServer数据库引擎,跳过该步骤即可。 图14 将用户readonly_user的默认事务设置为只读模式 图15 确认是否做了root权限优化,以下sql不报错说明已优化 图16 执行如下操作 提前准备的sql文件导入预设的数据库business_db。点击“导入·导出”,选择“导入”,点击“新建任务”,选择已有的SQL文件或OBS桶中的SQL文件,导入SQL文件。(说明:也可以通过DRS工具往数据库传输数据) 图17 点击“导入·导出”,选择“导入” 图17 导入选择SQL文件 图19 数据导入成功 测试数据库连接,在dify工作流http节点进行测试。点击http节点测试运行按钮。 图20 点击http节点测试运行按钮 图21 输入测试sql语句并运行 创建数据分析LLM节点,配置回复节点内容,完成整个智能问数工作流的搭建。 图22 创建LLM节点 图23 配置回复节点,选择数据分析LLM节点的输出结果 发布工作流,即可运行智能问数对话页面。 图24 发布工作流 图25 运行智能问数
-
计费示例 以下案例中出现的费用价格仅供参考,实际价格请参见各服务价格详情。 使用公共资源池时,仅部署模型服务状态为运行中及告警时才收费。使用专属资源池时,则部署模型服务不进行单独计费,由专属资源池进行收费。 示例一:假设用户部署了一个模型服务,模型服务运行了2小时停止,其中套餐包余量还有1小时。选择的是规格单价为xx元的公共资源池,实例数为1个。按照计算资源费用结算,那么部署模型服务的费用计算如下: 计算资源费用 = xx元/小时 * (模型服务运行时长2小时 - 套餐包余量1小时) = xx元 综上,部署模型服务的费用 = 计算资源费用(xx元) 示例二:假设用户调用DeepSeek R1的预置服务,输入Tokens数300万,输出Tokens数700万,费用 = 300万 ÷ 1000 * 0.004 + 700万 ÷ 1000 * 0.016 = 124元。
-
推理服务Tokens套餐包(预付费) 您可以先购买套餐包,在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费。 模型名称 量包额度(Tokens) 有效期 原价(元) 折后价(元) DeepSeek R1 100万 1个月 7 具体优惠信息和约束限制请以活动页和购买页面显示为准。 1000万 1个月 70 1亿 3个月 699 10亿 6个月 6996 DeepSeek V3 100万 1个月 3.5 1000万 1个月 35 1亿 3个月 348 10亿 6个月 3498 活动页面价格仅供参考,请以结算时最终成交价格为准。通过本活动页面购买商品,可享受相应优惠,具体优惠信息和约束限制请以活动页和购买页面显示为准。 套餐包的使用范围、计费规则、使用区域等信息说明如下: 使用范围 套餐包仅支持抵扣调用DeepSeek进行在线推理消耗的输入Tokens和输出Tokens。 计费规则 为保证业务正常,计费时将优先使用套餐包的额度,超出部分将自动根据使用模型的Token量按正常价格收费。如需终止计费,请及时停止服务调用,不使用服务则不会产生费用。关于如何按照按Tokens使用量计费,请参见计费示例。 使用区域 套餐包和购买时选定的区域绑定,套餐包只能使用于购买时选定的区域。 有效期 套餐包的额度为购买日起,有效期内的可使用的Tokens量。 账单查询 您可以在费用中心的资源包页面,查看已购买的资源包列表及其用量(1 Token = 1抵扣点数)。 退订声明 已购买套餐包不支持退订,请您购买前请确认。 用户须知 用户不得将 华为云产品 和服务用于任何违法违规或侵犯第三方合法权益的用途,如因此产生的法律责任,由用户自行承担责任,与华为云无关。 用户应遵守《ModelArts Studio大模型即服务平台服务声明》相关协议及页面使用规则(包括但不限于产品服务等级协议、使用规范、产品服务条款等)。
-
推理服务按Tokens使用量(后付费) 在调用模型推理服务的过程中,输入内容首先会被分词(tokenize),转换为模型可识别的Token。在调用MaaS预置服务时,将根据实际使用的Tokens数量进行计费。 表2 计费项 模型名称 计费子项 单价 计费项说明 计费公式 DeepSeek R1 输入 0.004元/千Tokens 用于模型推理的Token输入、输出。具体费用请参见ModelArts Studio价格详情。 费用 = 输入Token使用数量 * 输入Token单价 + 输出Token使用数量 * 输出Token单价 输出 0.016元/千Tokens DeepSeek V3 输入 0.002元/千Tokens 输出 0.008元/千Tokens
-
计算资源计费项 在MaaS进行模型推理时,会产生计算资源和存储资源的累计值计费。计算资源为运行模型服务的费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。 具体费用可参见ModelArts价格详情。 按需计费 规格单价 * 实例数 * 使用时长 优先抵扣套餐包时长 专属资源池 专属资源池的费用已在购买时支付,部署服务不再收费。 专属资源池的费用请参考专属资源池计费项。 - - 事件通知(不开启则不计费) 订阅消息使用 消息通知 服务,在事件列表中选择特定事件,在事件发生时发送消息通知。 如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。 具体计费可见消息通知服务价格详情。 按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量 发送HTTP(S)费用构成:HTTP(S)+外网下行流量
-
Lite Server支持的事件列表 通过对接 CES ,可以将业务中的重要事件或对云资源的操作事件收集到CES 云监控服务 ,并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS和ECS,NPU涉及的具体事件列表如下,GPU相关事件请参考CES事件监控说明。 表2 表2 Lite Server支持的事件列表 事件来源 命名空间 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 支持机型 支持版本 BMS/ECS SYS.BMS/SYS.ECS NPU: npu-smi info查询缺少设备 NPUSMICardNotFound 重要 可能是由于昇腾驱动问题或NPU掉卡 联系运维人员协助处理 NPU卡无法正常使用 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: PCIe链路异常 PCIeErrorFound 重要 lspci显示npu卡处于rev ff状态 联系运维人员协助处理 NPU卡无法正常使用 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: lspci查询缺少设备 LspciCardNotFound 重要 一般是由于NPU掉卡 联系运维人员协助处理 NPU卡无法正常使用 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: 温度超过阈值 TemperatureOverUpperLimit 重要 可能是由于DDR颗粒温度过高或过温软件预警 暂停业务,重启系统,查看散热系统,device复位 可能造成过温下电及device丢失 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: 存在不可纠正ECC错误 UncorrectableEccErrorWarning 重要 NPU卡出现Uncorrectable ECC Error硬件故障 如果业务受到影响,转硬件换卡 业务可能受到影响终止 Snt3P 300IDuo telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: 需要重启实例 RebootVirtualMachine 提示 当前故障很可能需要重启进行恢复 在收集必要信息后,重启以尝试恢复 重启可能中断客户业务 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: 需要复位SOC ResetSOC 提示 当前故障很可能需要复位SOC进行恢复 在收集必要信息后,复位SOC以尝试恢复 复位SOC可能中断客户业务 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: 需要退出AI任务重新执行 RestartAIProcess 提示 当前故障很可能需要客户退出当前的AI任务并尝试重新执行 在收集必要信息后,尝试退出当前AI任务并尝试重新执行 退出当前AI任务以便重新执行 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障,可能导致客户业务终止 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.4.3 2.7.5.3 2.7.5.4 2.7.5.9及之后版本 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 Snt9B Snt9b23 telescope: 2.7.5.9及之后版本 GPU: RoCE网卡配置错误 GpuRoceNicConfigIncorrect 重要 GPU: RoCE网卡配置错误 联系运维人员协助处理 机器参数面网络异常,多机任务无法执行 GPU telescope: 2.7.5.9及之后版本 OS出现ReadOnly问题 ReadOnlyFileSystem 严重 文件系统%s只读 请检查磁盘健康状态 无法对文件进行写和操作 - telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:驱动固件不匹配 NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配 请从昇腾官网获取匹配版本重新安装 无法正常使用NPU卡 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 - telescope: 2.7.5.3 2.7.5.9及之后版本 重要 容器插件Ascend-Docker-Runtime未安装 安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡 docker容器无法挂载NPU卡 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 重要 操作系统没有开启IP转发功能 请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置 docker容器无法正常网络通信 - telescope: 2.7.5.3 2.7.5.9及之后版本 重要 容器共享内存过小 共享内存默认为64M,可按需修改。 方式一:修改/etc/docker/daemon.json配置文件default-shm-size字段。 方式二:docker run命令中使用--shm-size参数来设置单个容器的共享内存大小。 分布式训练时共享内存不足导致训练失败 - telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:RoCE网卡down RoCELinkStatusDown 重要 NPU卡 %d RoCE Link状态Down 请检查NPU Roce网口状态 NPU网卡不可用 Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:RoCE网卡健康状态异常 RoCEHealthStatusError 重要 NPU卡 %d RoCE网络健康状态异常 请检查NPU Roce网卡健康状态 NPU网卡不可用 Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:Roce网卡配置文件/etc/hccn.conf不存在 HccnConfNotExisted 重要 Roce网卡配置文件"/etc/hccn.conf"不存在 请检查/etc/hccn.conf网卡配置文件 Roce网卡不可用 Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 GPU:GPU基本组件异常 GpuEnvironmentSystem 重要 nvidia-smi命令异常 请检查GPU驱动是否正常 GPU卡驱动不可用 GPU telescope: 2.7.5.3 2.7.5.9及之后版本 重要 nvidia-fabricmanager版本和GPU驱动版本不一致 请检查GPU驱动版本和nvidia-fabricmanager版本 nvidia-fabricmanager无法正常工作,影响GPU的使用 重要 容器插件nvidia-container-toolkit未安装 安装容器插件nvidia-container-toolkit docker无法挂载GPU卡 本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败 挂载磁盘错误,导致机器重启异常 - telescope: 2.7.5.3 2.7.5.9及之后版本 GPU:Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常 GPU telescope: 2.7.5.3 2.7.5.9及之后版本 NPU:Roce端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置 请检查NPU RoCE UDP端口配置情况 影响NPU卡通信性能 Snt9B Snt9b23 telescope: 2.7.5.9及之后版本 系统内核自动升级预警 KernelUpgradeWarning 重要 系统内核自动升级预警,旧版本:%s,新版本:%s 系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启 可能导致配套AI配套软件不可用 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 NPU环境相关命令检测 NpuToolsWarning 重要 hccn_tool不可用 请检查NPU驱动是否正常 无法配置RoCE网卡的IP、网关 Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 重要 npu-smi不可用 请检查NPU驱动是否正常 无法正常使用NPU卡 Snt3P 300IDuo Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 重要 ascend-dmi不可用 请检查工具包ToolBox是否正常安装 无法使用ascend-dmi进行性能分析 Snt9B Snt9b23 telescope: 2.7.5.3 2.7.5.9及之后版本 NPU: L1交换机端口局部功能失效 NpuL1SwitchPortPartialFunctionFailure 重要 NPU的L1 1520交换机端口局部功能失效 转昇腾和硬件处理 业务可能受到影响终止 Snt9b23 telescope: 2.7.5.9及之后版本 lqdcmi: 2.1.0及之后版本 NPU: L1交换机故障 NpuL1SwitchFault 重要 NPU的L1 1520交换机发生故障 转昇腾和硬件处理 业务可能受到影响终止 Snt9b23 telescope: 2.7.5.9及之后版本 lqdcmi: 2.1.0及之后版本 NPU:RoCE IP地址不匹配 NpuRoceIPAddressMismatch 重要 RoCE网卡的实际IP地址与配置文件hccn.conf中的IP地址不一致 联系运维人员协助处理 机器参数面网络异常,多机任务无法执行 Snt9B Snt9b23 telescope: 2.7.5.9及之后版本
-
安装CES Agent监控插件 通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。 当前账户需要给CES授权委托,请参考创建用户并授权使用 云监控 服务。如果在创建Server资源时,开启了“CES主机监控授权”,此处无需重复执行授权操作。 当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。 cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh 安装成功的标志如下: 图1 安装成功提示 在CES界面查看具体的监控项,加速卡类的监控项必须在主机安装加速卡驱动后才会有相关指标。 图2 监控界面 至此,监控插件已经安装完成,相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。
-
Lite Server监控方案介绍 详细监控方案介绍请参考BMS主机监控概述。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。 监控指标采样周期为1分钟,请勿修改,否则可能导致功能不正常。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集相关指标。 NPU相关指标采集功能运行依赖Linux系统工具lspci,部分事件依赖blkid、grub2-editenv系统工具,请确保这些工具功能正常。 工具名称 检查方法 安装方法 lspci 在shell环境中执行lspci,能够正常查询系统中的PCI设备,示例如下: $ sudo lspci 00:00.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) 00:08.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) 00:10.0 PCI bridge: Huawei Technologies Co., Ltd. HiSilicon PCIe Root Port with Gen4 (rev 21) lspci是用于显示PCI设备信息的工具,通常包含在pciutils软件包中。大多数Linux发行版默认安装了这个软件包,所以lspci通常是预装的。如果lspci未安装,可以使用包管理器安装pciutils。 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install pciutils 在Red Hat/CentOS/EulerOS系统中: sudo yum install pciutils blkid 在shell环境中执行blkid,能够查询系统中的块设备信息,示例如下: $ sudo blkid /dev/sda1: UUID="123e4567-e89b-12d3-a456-426614174000" TYPE="vfat" PARTUUID="56789abc-def0-1234-5678-9abcd3f2c0a1" /dev/sda2: UUID="a1b2c3d4-e5f6-789a-bcde-f0123456789a" TYPE="swap" PARTUUID="edcba98-7654-3210-fedc-ba9876543210" /dev/sda3: UUID="01234567-89ab-cdef-0123-456789abcdef" TYPE="ext4" PARTUUID="fedcba09-8765-4321-fedc-ba0987654321" blkid是Linux系统中用于显示块设备属性的工具,通常包含在util-linux软件包中。大多数Linux发行版默认安装了这个软件包,所以blkid通常是预装的。如果blkid未安装,可以使用包管理器安装util-linux。 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install util-linux 在Red Hat/CentOS/EulerOS系统中: sudo yum install util-linux grub2-editenv(仅Red Hat、CentOS、EulerOS发行版需要) 在shell环境中执行blkid,能够查询系统中的块设备信息,示例如下: 1 2 3 4 $ sudo grub2-editenv list timeout=5default=0saved_entry=Red Hat Enterprise Linux Server, with Linux 4.18.0-305.el8.x86_64 grub2-editenv是GRUB2的一部分,用于管理GRUB环境变量。大多数Linux发行版默认安装了GRUB2,所以grub2-editenv通常是预装的。如果grub2-editenv未安装,可以使用包管理器安装grub2-editenv: 在Debian/Ubuntu系统中: sudo apt-get update sudo apt-get install grub2 在Red Hat/CentOS/EulerOS系统中: sudo yum install grub2
-
约束限制 监控需要到Agent插件,Agent有严格的资源占用限制,当资源占用超过阈值后出现Agent熔断情况,详细的资源占用说明请参考CES产品文档相关章节:CES Agent性能说明。 通过Ascend-dmi执行NPU压测命令可能会导致丢失部分NPU指标数据。 监控Agent已在Lite Server提供的公共镜像中经过充分测试,如果您使用自己的镜像,建议测试后再部署到生产环境,防止信息错误。
-
大模型微调需要的数据有要求吗? AI原生应用引擎用于大模型微调的数据集任务领域为“自然语言处理”、数据集格式为“对话文本”。 文件内容要求为标准json数组,例如: [{"instruction": "aaa", "input": "aaa", "output": "aaa"},{"instruction": "bbb", "input": "bbb", "output": "bbb"}] 父主题: AI原生应用引擎
-
导入用户 AI科学计算服务控制台支持把IAM子用户导入至平台子用户。通过导入已有子用户,增加用户使用的便捷度,方便用户维护账号。 使用系统管理员账户登录AI科学计算服务控制台。 在右上角用户名中选择“用户管理”。 图1 用户管理 在用户管理页面,单击“导入用户”,进入“导入用户”页面。 图2 导入用户1 在导入用户页面,可以选择“用户”或者“用户组”进行导入。 图3 导入用户2 导入的IAM子用户需要具有管理控制台访问方式。 导入用户时不能超出配额。如果超出配额,进行配额调整后,5分钟后生效。 以用户组的方式导入时,若超出配额的部分会导入失败。 以用户组的方式导入时,用户组里已经导入到平台的用户,不算统计个数。例如,用户组A里50个用户,10个已经导入平台, 那么统计时,只会显示已选择40个用户。 IAM平台限制一个IAM用户不能加入超过10个用户组,而导入时还会再加入AI科学计算服务用户组。如果IAM用户在导入平台之前就已经加入了10个用户组,则导入的时候会失败。 用户数统计时会去重。例如,用户组A有50个用户, 用户组B里有50个用,两者之间有10个用户重复,那么同时选择用户组A和B,统计时显示已选择90个用户。 如果导入后用户状态显示异常,需联系技术支持处理。 单击“下一步”,设置角色。设置是否为“系统管理员”。 图4 设置角色 配置完成后,单击“确定”。 等待导入成功后,单击“关闭”。可以在用户管理页面查看导入成功的用户信息。 导入的用户,不支持删除,只支持移除,移除后不影响该用户操作其他服务。 图5 查看导入用户 AI科学计算服务控制台用户会在IAM中赋予以下细粒度权限,若该用户加入的其他IAM用户组有对应的deny权限,则会影响平台部分功能使用。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "obs:bucket:GetBucketLocation", "obs:bucket:ListBucketMultipartUploads", "obs:object:GetObjectVersion", "obs:object:GetObject", "obs:object:GetObjectVersionAcl", "obs:object:DeleteObject", "obs:object:ListMultipartUploadParts", "obs:bucket:HeadBucket", "obs:object:AbortMultipartUpload", "obs:object:DeleteObjectVersion", "obs:object:GetObjectAcl", "obs:bucket:ListAllMyBuckets", "obs:bucket:ListBucket", "obs:object:PutObject" ] } ] } 父主题: 用户管理
-
使用流程 AI科学计算服务提供靶点发现,苗头化合物发现,先导化合物优化全流程药研所需功能。同时基于云原生的软硬件一体化加速,大大提升虚拟筛选和分子动力学模拟计算效率。无需软硬件安装调试成本,开箱即用,随时可用。 平台也提供了个性化分析流程的搭建和管理操作。您可以将生物信息学软件封装为应用,并将其编排调度,形成自定义分析流程。 同时集成了基于开源的Jupyter Notebook,可为您提供在线的开发和调试工具,用于编写和调测模型训练代码。 表1 使用流程 开发方式 类别 步骤 说明 作业 小分子药物设计 准备工作 使用AI科学计算服务,需要用户开通平台,并绑定相关资源,如:计算资源、 CSS 资源。 创建空间 工作空间功能旨在为用户提供灵活、高效的资产管理与协作方式。平台支持用户根据业务需求或团队结构,自定义创建独立的工作空间。 每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。 创建小分子药物作业 小分子药物设计作业创建的整个流程包含如下步骤: 上传数据 创建小分子药物作业 平台支持多种方式创建小分子药物作业,比如:通过资产市场,或者我的空间,您可以任选其一。 查看执行结果 不同小分子药物设计流程的执行结果会有差异,具体可以参考每个小分子药物设计操作的查看结果步骤,如:查看靶点口袋发现结果、查看分子对接结果等。 分析作业 准备工作 使用AI科学计算服务,需要用户开通平台,并绑定相关资源,如:计算资源、性能加速。 创建空间 工作空间功能旨在为用户提供灵活、高效的资产管理与协作方式。平台支持用户根据业务需求或团队结构,自定义创建独立的工作空间。 每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。 创建分析作业 分析作业创建的整个流程包含如下步骤: 上传待分析数据 制作并上传镜像 创建应用 创建流程 创建分析作业 查看执行结果 分析作业的执行时间与环境资源类型、环境资源大小、处理数据大小等相关。您可以在“作业”页面查看执行结果或进行操作。 作业运行成功后,可以看到每个应用的运行信息:输入输出,基本信息,资源参数以及日志等信息。 Notebooks - 准备工作 使用AI科学计算服务,需要用户开通平台,并绑定相关资源,如:计算资源。 - 创建空间 工作空间功能旨在为用户提供灵活、高效的资产管理与协作方式。平台支持用户根据业务需求或团队结构,自定义创建独立的工作空间。 每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。 - 创建Notebook 平台支持系统镜像或自定义镜像创建Notebook。 您可以直接使用该Notebook,编写和调测模型,进行开发工作。 - 使用Notebook JupyterLab是一个交互式的开发环境,是Jupyter Notebook的下一代产品,可以使用它编写Notebook、操作终端、编辑MarkDown文本、打开交互模式、查看csv文件及图片等功能。