服务部署-华为云

AI开发平台MODELARTS-服务启动失败:健康检查配置有问题

健康检查配置有问题镜像如果配置了健康检查，服务启动失败，从以下两个方面进行排查：健康检查端口是否可以正常工作自定义镜像中配置了健康检查，需要在测试镜像时，同步测试健康检查接口是否可以正常工作，具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。创建AI应用界面上配置的健康检查地址与实际配置的是否一致如果使用的是ModelArts提供的基础镜像创建AI应用，健康检查URL默认必须为/health。图4 设置健康检查URL

AI开发平台MODELARTS 服务部署

AI开发平台MODELARTS-服务启动失败:镜像中配置的端口错误

镜像中配置的端口错误 AI应用可以正常启动，但是因为镜像中启用的端口非8080，或者镜像启用的端口与创建AI应用时配置的端口不一致，导致部署服务时register-agent无法与AI应用通信，超过一定时间后（最长20分钟）认为AI应用启动失败。需要检查两个地方：自定义镜像中的代码开放的端口和创建AI应用界面上配置的端口。确认两处端口保持一致。AI应用创建界面如果不填端口信息，则ModelArts会默认监听8080端口，即镜像代码中启用的端口必须是8080。图2 自定义镜像中的代码开放的端口图3 创建AI应用界面上配置的端口

AI开发平台MODELARTS 服务部署

AI开发平台MODELARTS-属性总览

属性总览您可以使用ServiceStep来构建服务部署节点，ServiceStep结构如下表1 ServiceStep 属性描述是否必填数据类型 name 服务部署节点的名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)，一个Workflow里的两个step名称不能重复是 str inputs 服务部署节点的输入列表否 ServiceInput或者ServiceInput的列表 outputs 服务部署节点的输出列表是 ServiceOutput或者ServiceOutput的列表 title title信息，主要用于前端的名称展示否 str description 服务部署节点的描述信息否 str policy 节点执行的policy 否 StepPolicy depend_steps 依赖的节点列表否 Step或者Step的列表表2 ServiceInput 属性描述是否必填数据类型 name 服务部署节点的输入名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)。同一个Step的输入名称不能重复是 str data 服务部署节点的输入数据对象是模型列表或服务相关对象，当前仅支持ServiceInputPlaceholder，ServiceData，ServiceUpdatePlaceholder 表3 ServiceOutput 属性描述是否必填数据类型 name 服务部署节点的输出名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)。同一个Step的输出名称不能重复是 str service_config 服务部署相关配置信息是 ServiceConfig 表4 ServiceConfig 属性描述是否必填数据类型 infer_type 推理方式：取值可为real-time/batch/edge。默认为real-time。 real-time代表在线服务，将模型部署为一个Web Service。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。 edge表示边缘服务，通过华为云智能边缘平台，在边缘节点将模型部署为一个Web Service，需提前在IEF（智能边缘服务）创建好节点。是 str service_name 服务名称，支持1-64位可见字符（含中文），名称可以包含字母、中文、数字、中划线、下划线。说明：该字段不填时默认为自动生成的服务名称。否 str、Placeholder description 服务备注，默认为空，不超过100个字符。否 str vpc_id 在线服务实例部署的虚拟私有云ID，默认为空，此时ModelArts会为每个用户分配一个专属的VPC，用户之间隔离。如需要在服务实例中访问名下VPC内的其他服务组件，则可配置此参数为对应VPC的ID。VPC一旦配置，不支持修改。当vpc_id与cluster_id一同配置时，只有专属资源池参数生效。否 str subnet_network_id 子网的网络ID，默认为空，当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。否 str security_group_id 安全组，默认为空，当配置了vpc_id则此参数必填。安全组起着虚拟防火墙的作用，为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则，对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。否 str cluster_id 专属资源池ID，默认为空，不使用专属资源池。使用专属资源池部署服务时需确保集群状态正常；配置此参数后，则使用集群的网络配置，vpc_id参数不生效；与下方real-time config中的cluster_id同时配置时，优先使用real-time config中的cluster_id参数。否 str additional_properties 附加的相关配置信息。否 dict apps 服务部署支持APP认证。支持填入多个app name。否 str、Placeholder、list envs 环境变量否 dict 示例： example = ServiceConfig() # 主要在服务部署节点的输出中使用如果您没有特殊需求，可直接使用内置的默认值。父主题：服务部署节点

AI开发平台MODELARTS 服务部署节点

AI开发平台MODELARTS-部署的在线服务状态为告警:解决方法

解决方法使用状态为告警的服务进行预测，可能存在预测失败的风险，请从以下4个角度进行排查，并重新部署。后台预测请求过多。如果您使用API接口进行预测，请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。业务内存不正常。请检查推理代码是否存在内存溢出或者内存泄漏的问题。模型运行异常。请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。实例pod数量异常。如果您曾经找过运维人员删除过异常的实例pod，事件中可能会出现告警“服务异常，不正常的实例数为XXX”。在出现这种告警后，服务会自动拉起新的正常实例，从而恢复到正常运行状态。请您耐心等待。

AI开发平台MODELARTS 服务部署

智能制造-Linux环境单机版部署

Linux环境单机版部署如果部署过集群版，需先停止所有服务并卸载所有组件才能继续完成安装。这里以安装包在opt目录为例。 # cd /opt/edi-RTPS-el7/bin # sh stop_all.sh # cd /opt # rm -rf edi-RTPS-el7 卸载完毕后：下载edi-RTPS-el7.zip文件，解压后进入edi-RTPS-el7目录下的bin目录执行install_all.sh脚本。假设把安装包放在opt目录下，命令如下： # unzip -q /opt/edi-RTPS-el7.zip -C /opt (解压安装包) # cd /opt/edi-RTPS-el7/bin # sh install_all.sh 表1 附录文件路径功能描述 edi-RTPS-el7/bin/start_all.sh 启动所有服务（默认安装后直接启动） edi-RTPS-el7/bin/stop_all.sh 停止所有服务 edi-RTPS-el7/bin/status_all.sh 检查所有服务状态 edi-RTPS-el7/installdir 各服务安装目录数据工厂所在服务器需添加实时处理服务器IP和主机名映射，例： 172.17.3.252 test252 实时处理服务器也应添加数据工厂所在服务器主机名映射，例： 172.17.3.237 edi 父主题：实时处理服务部署

智能制造实时处理服务部署

地图-安装PostgreSQL

安装PostgreSQL 服务信息如下：表1 服务信息2 服务名服务器安装目录端口账号/密码 Postgresql-9.6.8 10.190.x.x（主库） 10.190.x.x（从库） /app/postgresql 5432 Postgres/****** 安装PG 准备安装包将编译好的在ARM架构欧拉系统编译通过的PostgreSQL+PostGIS软件包放到服务器/app目录下并解压： tar xf postgresql_9.6.8_arm_eulerOS.tar.gz 添加用户并授权 groupadd postgres useradd postgres -g postgres -m -d /home/postgres chown -R postgres:postgres /app/postgresql 切换用户，启动PG su - postgres cd /app/postgresql ./bin/pg_ctl -D data -l logfile start 配置主从同步以172.16.1.22（主），172.16.1.21（从）为例，编辑主节点配置 vi /app/pg/data/pg_hba.conf #如下： host all all slave1ip/32 trust #允许连接到主服务器 host replication replica slave1ip/32 md5 #允许用replica复制这里在最下面添加两行： host all all 172.16.1.21/32 trust host replication replica 172.16.1.21/32 trust vi /app/postgresql/data/postgresql.conf #如下： data_directory = '/app/postgresql/data' #自定义data目录 listen_addresses = '*' #监听所有ip archive_mode = on #允许归档 archive_command = 'cp %p /app/postgresql/data/pg_archive/%f' #使用命令归档 wal_level = replica #选择热备replica或logical max_wal_senders = 16 #最多多少个流复制链接 wal_keep_segments = 256 #流复制保留最多的xlog数 wal_sender_timeout = 60s #流复制主机发送数据超时时间 max_connections = 5000 #从库的max_connections必须大于主库的创建用户replica进行主从同步，并赋予登录和复制的权限登录到数据库里(主节点) su postgres cd /app/postgresql/ ./bin/psql CREATE ROLE replica login replication encrypted password 'replica'; ./bin/pg_ctl -D data -l logfile restart slave1部分：#先备份数据，再同步数据 ./bin/pg_ctl -D data -l logfile stop ## 保持服务处于关闭状态 #自定义存档目录，先把旧的data全部移走 mkdir /home/postgres/pg_archive/ mv /app/postgresql/data/ /home/postgres/pg_archive/ chmod 700 pg_archive && chown postgres:postgres pg_archive/ su postgres rm -rf /app/postgresql/data/* #先将data目录下的数据都清空 #为空的情况下，把主节点的数据用pg_basebackup同步到从节点 cd /app/postgresql/bin pg_basebackup -P -h masterip -U replica -D /app/postgresql/data -X stream ./pg_basebackup -P -h 172.16.1.22 -U replica -D /app/postgresql/data -X stream #配置recovery.conf，最底下添加三行。 cp /app/postgresql/share/recovery.conf.sample /app/postgresql/data/recovery.conf vi /app/postgresql/data/recovery.conf standby_mode = on #该节点为从 primary_conninfo = 'host=$masterip port=5432 user=replica password=replica' #主服务器的ip、user recovery_target_timeline = 'latest' ##trigger_file = '/tmp/trigger_file0' #配置postgresql.conf ## 添加到75行位置，其余内容不需修改。 vi /app/postgresql/data/postgresql.conf max_connections = 5500 #尽量大于主连接数的10% max_standby_streaming_delay = 30s wal_receiver_status_interval = 10s hot_standby = on ##从节点默认用off , 配置on启动psql可查询数据。 hot_standby_feedback = on #出现错误复制，向主机反馈 #开启从数据库. ./bin/pg_ctl -D data -l logfile start netstat -tlnp 查看复制状态（主库172.16.1.22） ./bin/psql select client_addr,sync_state from pg_stat_replication; 图1 查看复制状态 ##主从节点的进程多了wal进程： ps -ef | grep postgres postgres: wal sender process replica 172.16.1.21 postgres: wal receiver process streaming #用pg_controldata命令查询主从集群运行状态 [postgres@host-172-16-1-22 bin]$ ./pg_controldata /app/postgresql/data/ pg_control version number: 960 Catalog version number: 201608131 Database system identifier: 7127200572656879006 Database cluster state: in production [postgres@host-172-16-1-21 bin]$ ./pg_controldata /app/postgresql/data/ pg_control version number: 960 Catalog version number: 201608131 Database system identifier: 7127200572656879006 Database cluster state: in archive recovery 主从搭建成功后，主库的集群状态是in production，从库是in archive recovery，当主库崩溃，可以切换从库为主库。这时候主库状态是shut down，而从库是in production。父主题：数据库及中间件服务部署

地图数据库及中间件服务部署

智能制造-“银河麒麟”系统单机版部署

“银河麒麟”系统单机版部署下载edi-RTPS-kylin.zip文件，解压后进入edi-RTPS-kylin目录下的conf目录，，配置slaves文件，然后执行install_all.sh文件进行部署。假设把安装包放在opt目录下，命令如下： # unzip -q /opt/edi-RTPS-kylin.zip -C /opt (解压安装包) # cd /opt/edi-RTPS-kylin/bin # vi /opt/edi-RTPS-kylin/conf/slaves (然后按【ip 主机名密码】格式编写，以空格分隔) 图1 图示 # ./install_all.sh 表1 附录文件路径功能描述 edi-RTPS-el7/bin/start_all.sh 启动所有服务（默认安装后直接启动） edi-RTPS-el7/bin/stop_all.sh 停止所有服务 edi-RTPS-el7/bin/status_all.sh 检查所有服务状态 edi-RTPS-el7/installdir 各服务安装目录数据工厂所在服务器需添加实时处理服务器IP和主机名映射，例： 172.21.200.26 Kylin 实时处理服务器也应添加数据工厂所在服务器主机名映射。例： 172.17.3.237 edi 父主题：实时处理服务部署

智能制造实时处理服务部署

数据管理与分析-控制平面服务安装

控制平面服务安装控制平面服务安装全部使用普通用户，执行：su - dpe 创建licence目录 mkdir /home/dpe/licence 上传licence文件至licence目录上传dpe-control-plane-mgr-svcs-x.y.m.n.tar.gz安装包到/home/dpe下解压 tar -zxvf dpe-control-plane-mgr-svcs-x.y.m.n.tar.gz && cd dpe-control-plane-mgr-svcs 修改配置文件 vi dpe-common.properties 这个配置文件需要与dpe-control-plane-data-svcs里面的dpe-common.properties完全一致将下面中的配置文件项dpe-control-plane-mgr-svr替换成控制平面服务器的ip地址 vi dpe-master-svr.properties ###################################################################### ## 平台elastic代理地址 platform_elastic_proxy_url=127.0.0.1:19300 ## 开放空间落地数据elastic代理地址 openspace_elastic_proxy_url=127.0.0.1:19301 ##开放空间落地数据分片数量(es索引分片数) number_of_shards=5 ##开放空间落地数据副本数量(es索引副本数) number_of_replicas=1 ###################################################################### #streamx streamx_port=10081 streamx_data_dir=/data/streamx_workspace hadoop_install_user=dpe pull_data_size=1000 ########################################## ##管理端访问URL地址前缀 admin_accessurlprefix=http://dpe-control-plane-mgr-svr:18433 ##管理端版本号 admin_version=v1.1.1.34 ##管理端标题 admin_title=DPE管理控制台 ##管理台是否配置ssl域名证书 admin_ssl=false ##ca证书,例如:(/home/dpe/cert/dtsclouds.com.pem)写完整文件地址 admin_ssl_cert=/home/dpe/cert/dtsclouds.com.pem ##私钥文件例如:(/home/dpe/cert/dtsclouds.com.key)写完整文件地址 admin_ssl_cert_key=/home/dpe/cert/dtsclouds.com.key ########################################## ##flink安装位置 flink_ipaddress=dpe-control-plane-mgr-svr flink_home=/usr/local/flink ########################################## ## licence.encrypt 文件路径 licence_filepath=/home/dpe/licence/licence.encrypt ########################################## ## hadoop 配置 hadoop_username=dpe ########################################## ## 每批获取数据量 page_size=1000 ########################################## ## 提交超时 submit_timeout=300 ##########################authzforce################################# #authzforce日志目录 authzforce_log_dir=/data/azf/logs #authzforce数据目录 authzforce_datadir=/data/fileserver/azfdata ##################################################################### #任务调度器服务核心参数配置 scheduler_taskfile_path=/data/scheduled scheduler_task_poolsize=200 ############################kong-gateway############################# #日志级别(error warn notice info debug) #路径/etc/kong/kong.conf kong_log_level=notice #日志目录 kong_log_dir=/data/kong/logs #是否配置ssl证书(true为配置ssl证书,false为不配置ssl证书) ssl=false #ca证书,例如:(/home/dpe/cert/dtsclouds.com.pem)写完整文件地址 ssl_cert=/home/dpe/cert/dtsclouds.com.pem #私钥文件例如:(/home/dpe/cert/dtsclouds.com.key)写完整文件地址 ssl_cert_key=/home/dpe/cert/dtsclouds.com.key ##################################################################### ##总共有几台 dpe-kernel 设备 kernel_size=1 ##第几台 dpe-kernel 设备 kernel_index=1 ##邮件代理服务地址 mail_mgr_serverurl=http://dpe-control-plane-mgr-svr:3181 ########################################## ##IDM服务地址 idm_serverurl=http://dpe-control-plane-mgr-svr:3000 idm_admin_user=admin@test.com idm_admin_password=1234 ########################################## ##Authzforce服务地址 authzforce_serverurl=http://dpe-control-plane-mgr-svr:18080 ##dpe端udf文件服务地址 dpe_udffile_serverurl=http://dpe-control-plane-mgr-svr:15580 ##应用授权层-应用授权管理服务地址 appauth_mgr_serverurl=http://dpe-control-plane-mgr-svr:5281 ##应用会话层-策略管理服务地址 policy_mgr_serverurl=http://dpe-control-plane-mgr-svr:6081 vi dpe-master-for-kernel.properties ## hadoop 配置 hadoop_username=dpe ########################################## ##flink安装位置 flink_home=/usr/local/flink ##邮件代理服务地址 mail_mgr_serverurl=http://dpe-control-plane-mgr-svr:3181 ##管理端访问URL地址前缀 admin_accessurlprefix=http://dpe-control-plane-mgr-svr:18433 ##nfs服务器地址 nfs_server=dpe-control-plane-mgr-svr ########################################## ##IDM服务地址 idm_serverurl=http://dpe-control-plane-mgr-svr:3000 idm_admin_user=admin@test.com idm_admin_password=1234 ########################################## ##Authzforce服务地址 fiware_azfserver_list=http://dpe-control-plane-mgr-svr:18080 ##dpe端udf文件服务地址 dpe_udffile_serverurl=http://dpe-control-plane-mgr-svr:15580 ##应用授权层-应用授权管理服务地址 appauth_mgr_serverurl=http://dpe-control-plane-mgr-svr:5281 ##应用会话层-策略管理服务地址 policy_mgr_serverurl=http://dpe-control-plane-mgr-svr:6081 ##访问记账kafka配置 kafka_brokers=dpe-open-space-cc:9091,dpe-open-space-cc:9092,dpe-open-space-cc:9093 kafka_groupid=access-accounting kafka_userName= kafka_password= kafka_securityProtocol= kafka_saslMechanism= kafka_topic=access-accounting-notify kafka_partition_num=5 kafka_consumersCount=5 执行安装脚本 bash ./config-all.sh bash ./install-all.sh bash ./start-all.sh 父主题： DPE软件服务部署

数据管理与分析 DPE软件服务部署

数据管理与分析-系统初始化

系统初始化系统初始化操作都需要使用root用户执行上传system-init.x.y.m.n.tar.gz安装包到/root目录下解压安装包 cd /root tar -xf system-init.x.y.m.n.tar.gz 修改配置文件 cd /root/system-init/ vi config.properties 修改如下配置项： local_address=本机ip地址 HOSTname=dce-svr user=dce user_password=用户密码执行脚本 bash ./init.sh 配置时间timedatectl set-ntp no时间以当前时间为准 timedatectl set-time "2023-06-26 15:05:10 父主题： DCE软件服务部署

数据管理与分析 DCE软件服务部署

AI-边缘服务器安装Docker

边缘服务器安装Docker docker 查看docker版本，版本建议20以上 sudo docker --version 安装教程 sudo apt updatesudo apt install docker-ce docker-ce-cli containerd.io nvidia-docker 查看nvidia-docker版本 sudo nvidia-docker --version 安装教程参考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#install-guide distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \&& curl -s -L https://nvidia.github.io/libnvidia-container/experimental/$distribution/libnvidia-container.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.listsudo apt-get updatesudo apt-get install -y nvidia-docker2sudo systemctl restart docker 父主题：边缘服务部署

AI 边缘服务部署

政府-Jenkins

Jenkins Jenkins是一个独立的开源软件项目，是基于Java开发的一种持续集成工具，用于监控持续重复的工作，旨在提供一个开放易用的软件平台，使软件的持续集成变成可能。前身是Hudson是一个可扩展的持续集成引擎。可用于自动化各种任务，如构建，测试和部署软件。Jenkins可以通过本机系统包Docker安装，甚至可以通过安装Java Runtime Environment的任何机器独立运行。下载安装下载安装包wget https://get.jenkins.io/redhat-stable/jenkins-2.332.1.noarch.rpm直接安装rpm -ivh jenkins-2.222.1-1.1.noarch.rpm修改端口号，权限vim /etc/sysconfig/jenkins#监听端口JENKINS_PORT="6001"#为了不因为权限出现各种问题，这里直接使用rootJENKINS_USER="root"启动Jenkinsservice jenkins start 图1 解锁配置项目自动构建新建一个项目文件图2 新建一个项目文件配置项目Git地址图3 配置项目Git地址配置构件步骤图4 配置构件步骤保存更改，点击构建，这样就能自动启动应用图5 启动应用父主题：应用服务部署

政府应用服务部署

华为云区块链引擎服务 HBS-基于华为云资源部署:后续操作（可选）

后续操作（可选）已部署的服务，支持查看创建、删除等操作记录。左侧操作状态栏会展示已有操作记录的状态，操作状态类型包括：进行中、成功和失败。图1 华为云区块链引擎操作记录系统将保留最近三天的操作记录。登录华为云区块链引擎服务管理控制台，单击左侧导航栏中的“服务管理”，选择华为云区块链引擎。单击“操作记录”，查看各个资源的操作记录。您可以按资源名称搜索操作记录，还可以在资源所在行进行“操作详情”及“删除”操作。

华为云区块链引擎服务 HBS 服务部署

华为云区块链引擎服务 HBS-基于华为云资源部署:部署华为云区块链引擎服务

部署华为云区块链引擎服务完成环境准备工作后，可按照如下步骤购买并部署华为云区块链引擎服务。登录华为云区块链引擎服务管理控制台，进入“服务管理”，在华为云区块链引擎页面单击“购买”。已部署的服务，单击左侧导航栏中的“服务管理”，单击右侧的“操作记录”，查看操作记录并在服务右侧进行“操作详情”及“删除”操作。根据界面提示，配置区块链基本信息，参数如表1所示。表1 基本信息配置参数描述示例计费模式华为云区块链引擎服务管理收费模式，支持包年/包月。包年/包月区域区块链基础设施所在的区域，建议选择与业务应用系统相同的地域。使用默认区域区块链服务名称支持英文字符、数字及中划线，不能以中划线开头，长度为4-24个字符。说明：目前区块链名称不支持修改，只能删除重新创建。 hbs-wh 管理模式选择云端管理：使用华为云资源管理区块链数据。云端管理版本类型 HBS提供专业版、企业版和铂金版供您选择。专业版组织配置支持增加组织成员数。专业版支持最大成员组织数2个，企业版支持最大成员组织数10个，铂金版支持最大成员组织数100个。 - 高级设置共识策略：区块链网络中节点之间达成共识需要遵从的规则。默认为Raft(CFT)策略。安全机制：保证数据安全的加密算法，默认为ECDSA；支持国密算法。 - 购买时长支持自定义购买服务的使用时间，最短1个月。您可根据需要选择勾选自动续费，按月购买的自动续费周期为1个月，按年购买的自动续费周期为1年。默认1个月单击“立即创建”。确认配置信息无误后，勾选协议和免责声明，并单击“提交”。进入支付页面，确认订单费用无误后，单击“确认付款”，订单支付成功后，即可返回华为云区块链引擎服务控制台查看正在创建的服务。服务创建大概需要18-25分钟，请耐心等待。服务创建成功后，查看服务状态变为“正常”后，表示华为云区块链引擎服务部署完成。

华为云区块链引擎服务 HBS 服务部署

云服务器内容精选

服务部署

7*24

备案

专业服务

退订

建议反馈

售前咨询热线