云服务器内容精选

  • 健康检查配置有问题 镜像如果配置了健康检查,服务启动失败,从以下两个方面进行排查: 健康检查端口是否可以正常工作 自定义镜像中配置了健康检查,需要在测试镜像时,同步测试健康检查接口是否可以正常工作,具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。 创建AI应用界面上配置的健康检查地址与实际配置的是否一致 如果使用的是ModelArts提供的基础镜像创建AI应用,健康检查URL默认必须为/health。 图4 设置健康检查URL
  • 镜像中配置的端口错误 AI应用可以正常启动,但是因为镜像中启用的端口非8080,或者镜像启用的端口与创建AI应用时配置的端口不一致,导致部署服务时register-agent无法与AI应用通信,超过一定时间后(最长20分钟)认为AI应用启动失败。 需要检查两个地方:自定义镜像中的代码开放的端口和创建AI应用界面上配置的端口。确认两处端口保持一致。AI应用创建界面如果不填端口信息,则ModelArts会默认监听8080端口,即镜像代码中启用的端口必须是8080。 图2 自定义镜像中的代码开放的端口 图3 创建AI应用界面上配置的端口
  • 属性总览 您可以使用ServiceStep来构建服务部署节点,ServiceStep结构如下 表1 ServiceStep 属性 描述 是否必填 数据类型 name 服务部署节点的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符),一个Workflow里的两个step名称不能重复 是 str inputs 服务部署节点的输入列表 否 ServiceInput或者ServiceInput的列表 outputs 服务部署节点的输出列表 是 ServiceOutput或者ServiceOutput的列表 title title信息,主要用于前端的名称展示 否 str description 服务部署节点的描述信息 否 str policy 节点执行的policy 否 StepPolicy depend_steps 依赖的节点列表 否 Step或者Step的列表 表2 ServiceInput 属性 描述 是否必填 数据类型 name 服务部署节点的输入名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输入名称不能重复 是 str data 服务部署节点的输入数据对象 是 模型列表或服务相关对象,当前仅支持ServiceInputPlaceholder,ServiceData,ServiceUpdatePlaceholder 表3 ServiceOutput 属性 描述 是否必填 数据类型 name 服务部署节点的输出名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输出名称不能重复 是 str service_config 服务部署相关配置信息 是 ServiceConfig 表4 ServiceConfig 属性 描述 是否必填 数据类型 infer_type 推理方式:取值可为real-time/batch/edge。默认为real-time。 real-time代表在线服务,将模型部署为一个Web Service。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智能边缘平台,在边缘节点将模型部署为一个Web Service,需提前在IEF(智能边缘服务)创建好节点。 是 str service_name 服务名称,支持1-64位可见字符(含中文),名称可以包含字母、中文、数字、中划线、下划线。 说明: 该字段不填时默认为自动生成的服务名称。 否 str、Placeholder description 服务备注,默认为空,不超过100个字符。 否 str vpc_id 在线服务实例部署的虚拟私有云ID,默认为空,此时ModelArts会为每个用户分配一个专属的VPC,用户之间隔离。如需要在服务实例中访问名下VPC内的其他服务组件,则可配置此参数为对应VPC的ID。VPC一旦配置,不支持修改。当vpc_id与cluster_id一同配置时,只有专属资源池参数生效。 否 str subnet_network_id 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 否 str security_group_id 安全组,默认为空,当配置了vpc_id则此参数必填。安全组起着虚拟防火墙的作用,为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 否 str cluster_id 专属资源池ID,默认为空,不使用专属资源池。使用专属资源池部署服务时需确保集群状态正常;配置此参数后,则使用集群的网络配置,vpc_id参数不生效;与下方real-time config中的cluster_id同时配置时,优先使用real-time config中的cluster_id参数。 否 str additional_properties 附加的相关配置信息。 否 dict apps 服务部署支持APP认证。支持填入多个app name。 否 str、Placeholder、list envs 环境变量 否 dict 示例: example = ServiceConfig() # 主要在服务部署节点的输出中使用 如果您没有特殊需求,可直接使用内置的默认值。 父主题: 服务部署节点
  • 解决方法 使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下4个角度进行排查,并重新部署。 后台预测请求过多。 如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。 业务内存不正常。 请检查推理代码是否存在内存溢出或者内存泄漏的问题。 模型运行异常。 请检查您的模型是否能正常运行。例如模型依赖的资源是否故障,需要排查推理日志。 实例pod数量异常 。 如果您曾经找过运维人员删除过异常的实例pod,事件中可能会出现告警“服务异常,不正常的实例数为XXX”。在出现这种告警后,服务会自动拉起新的正常实例,从而恢复到正常运行状态。请您耐心等待。
  • Linux环境单机版部署 如果部署过集群版,需先停止所有服务并卸载所有组件才能继续完成安装。 这里以安装包在opt目录为例。 # cd /opt/edi-RTPS-el7/bin # sh stop_all.sh # cd /opt # rm -rf edi-RTPS-el7 卸载完毕后: 下载edi-RTPS-el7.zip文件,解压后进入edi-RTPS-el7目录下的bin目录执行install_all.sh脚本。 假设把安装包放在opt目录下,命令如下: # unzip -q /opt/edi-RTPS-el7.zip -C /opt (解压安装包) # cd /opt/edi-RTPS-el7/bin # sh install_all.sh 表1 附录 文件路径 功能描述 edi-RTPS-el7/bin/start_all.sh 启动所有服务(默认安装后直接启动) edi-RTPS-el7/bin/stop_all.sh 停止所有服务 edi-RTPS-el7/bin/status_all.sh 检查所有服务状态 edi-RTPS-el7/installdir 各服务安装目录 数据工厂所在服务器需添加实时处理服务器IP和主机名映射,例: 172.17.3.252 test252 实时处理服务器也应添加数据工厂所在服务器主机名映射,例: 172.17.3.237 edi 父主题: 实时处理服务部署
  • 安装PostgreSQL 服务信息如下: 表1 服务信息2 服务名 服务器 安装目录 端口 账号/密码 Postgresql-9.6.8 10.190.x.x(主库) 10.190.x.x(从库) /app/postgresql 5432 Postgres/****** 安装PG 准备安装包 将编译好的在ARM架构欧拉系统编译通过的PostgreSQL+PostGIS软件包放到服务器/app目录下并解压: tar xf postgresql_9.6.8_arm_eulerOS.tar.gz 添加用户并授权 groupadd postgres useradd postgres -g postgres -m -d /home/postgres chown -R postgres:postgres /app/postgresql 切换用户,启动PG su - postgres cd /app/postgresql ./bin/pg_ctl -D data -l logfile start 配置主从同步 以172.16.1.22(主),172.16.1.21(从)为例,编辑主节点配置 vi /app/pg/data/pg_hba.conf #如下: host all all slave1ip/32 trust #允许连接到主服务器 host replication replica slave1ip/32 md5 #允许用replica复制 这里在最下面添加两行: host all all 172.16.1.21/32 trust host replication replica 172.16.1.21/32 trust vi /app/postgresql/data/postgresql.conf #如下: data_directory = '/app/postgresql/data' #自定义data目录 listen_addresses = '*' #监听所有ip archive_mode = on #允许归档 archive_command = 'cp %p /app/postgresql/data/pg_archive/%f' #使用命令归档 wal_level = replica #选择热备replica或logical max_wal_senders = 16 #最多多少个流复制链接 wal_keep_segments = 256 #流复制保留最多的xlog数 wal_sender_timeout = 60s #流复制主机发送数据超时时间 max_connections = 5000 #从库的max_connections必须大于主库的 创建用户replica进行主从同步,并赋予登录和复制的权限 登录到数据库里(主节点) su postgres cd /app/postgresql/ ./bin/psql CREATE ROLE replica login replication encrypted password 'replica'; ./bin/pg_ctl -D data -l logfile restart slave1部分:#先备份数据,再同步数据 ./bin/pg_ctl -D data -l logfile stop ## 保持服务处于关闭状态 #自定义存档目录,先把旧的data全部移走 mkdir /home/postgres/pg_archive/ mv /app/postgresql/data/ /home/postgres/pg_archive/ chmod 700 pg_archive && chown postgres:postgres pg_archive/ su postgres rm -rf /app/postgresql/data/* #先将data目录下的数据都清空 #为空的情况下,把主节点的数据用pg_basebackup同步到从节点 cd /app/postgresql/bin pg_basebackup -P -h masterip -U replica -D /app/postgresql/data -X stream ./pg_basebackup -P -h 172.16.1.22 -U replica -D /app/postgresql/data -X stream #配置recovery.conf,最底下添加三行。 cp /app/postgresql/share/recovery.conf.sample /app/postgresql/data/recovery.conf vi /app/postgresql/data/recovery.conf standby_mode = on #该节点为从 primary_conninfo = 'host=$masterip port=5432 user=replica password=replica' #主服务器的ip、user recovery_target_timeline = 'latest' ##trigger_file = '/tmp/trigger_file0' #配置postgresql.conf ## 添加到75行位置,其余内容不需修改。 vi /app/postgresql/data/postgresql.conf max_connections = 5500 #尽量大于主连接数的10% max_standby_streaming_delay = 30s wal_receiver_status_interval = 10s hot_standby = on ##从节点默认用off , 配置on启动psql可查询数据。 hot_standby_feedback = on #出现错误复制,向主机反馈 #开启从数据库. ./bin/pg_ctl -D data -l logfile start netstat -tlnp 查看复制状态(主库172.16.1.22) ./bin/psql select client_addr,sync_state from pg_stat_replication; 图1 查看复制状态 ##主从节点的进程多了wal进程: ps -ef | grep postgres postgres: wal sender process replica 172.16.1.21 postgres: wal receiver process streaming #用pg_controldata命令查询主从集群运行状态 [postgres@host-172-16-1-22 bin]$ ./pg_controldata /app/postgresql/data/ pg_control version number: 960 Catalog version number: 201608131 Database system identifier: 7127200572656879006 Database cluster state: in production [postgres@host-172-16-1-21 bin]$ ./pg_controldata /app/postgresql/data/ pg_control version number: 960 Catalog version number: 201608131 Database system identifier: 7127200572656879006 Database cluster state: in archive recovery 主从搭建成功后,主库的集群状态是in production,从库是in archive recovery,当主库崩溃,可以切换从库为主库。这时候主库状态是shut down,而从库是in production。 父主题: 数据库及中间件服务部署
  • “银河麒麟”系统单机版部署 下载edi-RTPS-kylin.zip文件,解压后进入edi-RTPS-kylin目录下的conf目录,,配置slaves文件,然后执行install_all.sh文件进行部署。 假设把安装包放在opt目录下,命令如下: # unzip -q /opt/edi-RTPS-kylin.zip -C /opt (解压安装包) # cd /opt/edi-RTPS-kylin/bin # vi /opt/edi-RTPS-kylin/conf/slaves (然后按 【ip 主机名 密码】 格式编写,以空格分隔) 图1 图示 # ./install_all.sh 表1 附录 文件路径 功能描述 edi-RTPS-el7/bin/start_all.sh 启动所有服务(默认安装后直接启动) edi-RTPS-el7/bin/stop_all.sh 停止所有服务 edi-RTPS-el7/bin/status_all.sh 检查所有服务状态 edi-RTPS-el7/installdir 各服务安装目录 数据工厂所在服务器需添加实时处理服务器IP和主机名映射,例: 172.21.200.26 Kylin 实时处理服务器也应添加数据工厂所在服务器主机名映射。例: 172.17.3.237 edi 父主题: 实时处理服务部署
  • 控制平面服务安装 控制平面服务安装全部使用普通用户,执行:su - dpe 创建licence目录 mkdir /home/dpe/licence 上传licence文件至licence目录 上传dpe-control-plane-mgr-svcs-x.y.m.n.tar.gz安装包到/home/dpe下 解压 tar -zxvf dpe-control-plane-mgr-svcs-x.y.m.n.tar.gz && cd dpe-control-plane-mgr-svcs 修改配置文件 vi dpe-common.properties 这个配置文件需要与dpe-control-plane-data-svcs里面的dpe-common.properties完全一致 将下面中的配置文件项dpe-control-plane-mgr-svr替换成控制平面服务器的ip地址 vi dpe-master-svr.properties ###################################################################### ## 平台elastic代理地址 platform_elastic_proxy_url=127.0.0.1:19300 ## 开放空间落地数据elastic代理地址 openspace_elastic_proxy_url=127.0.0.1:19301 ##开放空间落地数据分片数量(es索引分片数) number_of_shards=5 ##开放空间落地数据副本数量(es索引副本数) number_of_replicas=1 ###################################################################### #streamx streamx_port=10081 streamx_data_dir=/data/streamx_workspace hadoop_install_user=dpe pull_data_size=1000 ########################################## ##管理端访问URL地址前缀 admin_accessurlprefix=http://dpe-control-plane-mgr-svr:18433 ##管理端版本号 admin_version=v1.1.1.34 ##管理端标题 admin_title=DPE管理控制台 ##管理台是否配置ssl域名证书 admin_ssl=false ##ca证书,例如:(/home/dpe/cert/dtsclouds.com.pem)写完整文件地址 admin_ssl_cert=/home/dpe/cert/dtsclouds.com.pem ##私钥文件例如:(/home/dpe/cert/dtsclouds.com.key)写完整文件地址 admin_ssl_cert_key=/home/dpe/cert/dtsclouds.com.key ########################################## ##flink安装位置 flink_ipaddress=dpe-control-plane-mgr-svr flink_home=/usr/local/flink ########################################## ## licence.encrypt 文件路径 licence_filepath=/home/dpe/licence/licence.encrypt ########################################## ## hadoop 配置 hadoop_username=dpe ########################################## ## 每批获取数据量 page_size=1000 ########################################## ## 提交超时 submit_timeout=300 ##########################authzforce################################# #authzforce日志目录 authzforce_log_dir=/data/azf/logs #authzforce数据目录 authzforce_datadir=/data/fileserver/azfdata ##################################################################### #任务调度器服务核心参数配置 scheduler_taskfile_path=/data/scheduled scheduler_task_poolsize=200 ############################kong-gateway############################# #日志级别(error warn notice info debug) #路径/etc/kong/kong.conf kong_log_level=notice #日志目录 kong_log_dir=/data/kong/logs #是否配置ssl证书(true为配置ssl证书,false为不配置ssl证书) ssl=false #ca证书,例如:(/home/dpe/cert/dtsclouds.com.pem)写完整文件地址 ssl_cert=/home/dpe/cert/dtsclouds.com.pem #私钥文件例如:(/home/dpe/cert/dtsclouds.com.key)写完整文件地址 ssl_cert_key=/home/dpe/cert/dtsclouds.com.key ##################################################################### ##总共有几台 dpe-kernel 设备 kernel_size=1 ##第几台 dpe-kernel 设备 kernel_index=1 ##邮件代理服务地址 mail_mgr_serverurl=http://dpe-control-plane-mgr-svr:3181 ########################################## ##IDM服务地址 idm_serverurl=http://dpe-control-plane-mgr-svr:3000 idm_admin_user=admin@test.com idm_admin_password=1234 ########################################## ##Authzforce服务地址 authzforce_serverurl=http://dpe-control-plane-mgr-svr:18080 ##dpe端udf文件服务地址 dpe_udffile_serverurl=http://dpe-control-plane-mgr-svr:15580 ##应用授权层-应用授权管理服务地址 appauth_mgr_serverurl=http://dpe-control-plane-mgr-svr:5281 ##应用会话层-策略管理服务地址 policy_mgr_serverurl=http://dpe-control-plane-mgr-svr:6081 vi dpe-master-for-kernel.properties ## hadoop 配置 hadoop_username=dpe ########################################## ##flink安装位置 flink_home=/usr/local/flink ##邮件代理服务地址 mail_mgr_serverurl=http://dpe-control-plane-mgr-svr:3181 ##管理端访问URL地址前缀 admin_accessurlprefix=http://dpe-control-plane-mgr-svr:18433 ##nfs服务器地址 nfs_server=dpe-control-plane-mgr-svr ########################################## ##IDM服务地址 idm_serverurl=http://dpe-control-plane-mgr-svr:3000 idm_admin_user=admin@test.com idm_admin_password=1234 ########################################## ##Authzforce服务地址 fiware_azfserver_list=http://dpe-control-plane-mgr-svr:18080 ##dpe端udf文件服务地址 dpe_udffile_serverurl=http://dpe-control-plane-mgr-svr:15580 ##应用授权层-应用授权管理服务地址 appauth_mgr_serverurl=http://dpe-control-plane-mgr-svr:5281 ##应用会话层-策略管理服务地址 policy_mgr_serverurl=http://dpe-control-plane-mgr-svr:6081 ##访问记账kafka配置 kafka_brokers=dpe-open-space-cc:9091,dpe-open-space-cc:9092,dpe-open-space-cc:9093 kafka_groupid=access-accounting kafka_userName= kafka_password= kafka_securityProtocol= kafka_saslMechanism= kafka_topic=access-accounting-notify kafka_partition_num=5 kafka_consumersCount=5 执行安装脚本 bash ./config-all.sh bash ./install-all.sh bash ./start-all.sh 父主题: DPE软件服务部署
  • 系统初始化 系统初始化操作都需要使用root用户执行 上传system-init.x.y.m.n.tar.gz安装包到/root目录下 解压安装包 cd /root tar -xf system-init.x.y.m.n.tar.gz 修改配置文件 cd /root/system-init/ vi config.properties 修改如下配置项: local_address=本机ip地址 HOSTname=dce-svr user=dce user_password=用户密码 执行脚本 bash ./init.sh 配置时间timedatectl set-ntp no时间以当前时间为准 timedatectl set-time "2023-06-26 15:05:10 父主题: DCE软件服务部署
  • 边缘服务器安装Docker docker 查看docker版本,版本建议20以上 sudo docker --version 安装教程 sudo apt updatesudo apt install docker-ce docker-ce-cli containerd.io nvidia-docker 查看nvidia-docker版本 sudo nvidia-docker --version 安装教程参考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#install-guide distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \&& curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \&& curl -s -L https://nvidia.github.io/libnvidia-container/experimental/$distribution/libnvidia-container.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.listsudo apt-get updatesudo apt-get install -y nvidia-docker2sudo systemctl restart docker 父主题: 边缘服务部署
  • Jenkins Jenkins是一个独立的开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。前身是Hudson是一个可扩展的持续集成引擎。可用于自动化各种任务,如构建,测试和部署软件。Jenkins可以通过本机系统包Docker安装,甚至可以通过安装Java Runtime Environment的任何机器独立运行。 下载安装 下载安装包wget https://get.jenkins.io/redhat-stable/jenkins-2.332.1.noarch.rpm直接安装rpm -ivh jenkins-2.222.1-1.1.noarch.rpm修改端口号,权限vim /etc/sysconfig/jenkins#监听端口JENKINS_PORT="6001"#为了不因为权限出现各种问题,这里直接使用rootJENKINS_USER="root"启动Jenkinsservice jenkins start 图1 解锁 配置项目自动构建 新建一个项目文件 图2 新建一个项目文件 配置项目Git地址 图3 配置项目Git地址 配置构件步骤 图4 配置构件步骤 保存更改,点击构建,这样就能自动启动应用 图5 启动应用 父主题: 应用服务部署
  • 后续操作(可选) 已部署的服务,支持查看创建、删除等操作记录。左侧操作状态栏会展示已有操作记录的状态,操作状态类型包括:进行中、成功和失败。 图1 华为云区块链引擎操作记录 系统将保留最近三天的操作记录。 登录华为云区块链引擎服务管理控制台,单击左侧导航栏中的“服务管理”,选择华为云区块链引擎。 单击“操作记录”,查看各个资源的操作记录。 您可以按资源名称搜索操作记录,还可以在资源所在行进行“操作详情”及“删除”操作。
  • 部署华为云区块链引擎服务 完成环境准备工作后,可按照如下步骤购买并部署华为云区块链引擎服务。 登录华为云区块链引擎服务管理控制台,进入“服务管理”,在华为云区块链引擎页面单击“购买”。 已部署的服务,单击左侧导航栏中的“服务管理”,单击右侧的“操作记录”,查看操作记录并在服务右侧进行“操作详情”及“删除”操作。 根据界面提示,配置区块链基本信息,参数如表1所示。 表1 基本信息配置 参数 描述 示例 计费模式 华为云区块链引擎服务管理收费模式,支持包年/包月。 包年/包月 区域 区块链基础设施所在的区域,建议选择与业务应用系统相同的地域。 使用默认区域 区块链服务名称 支持英文字符、数字及中划线,不能以中划线开头,长度为4-24个字符。 说明: 目前区块链名称不支持修改,只能删除重新创建。 hbs-wh 管理模式 选择云端管理:使用华为云资源管理区块链数据。 云端管理 版本类型 HBS提供专业版、企业版和铂金版供您选择。 专业版 组织配置 支持增加组织成员数。 专业版支持最大成员组织数2个,企业版支持最大成员组织数10个,铂金版支持最大成员组织数100个。 - 高级设置 共识策略:区块链网络中节点之间达成共识需要遵从的规则。默认为Raft(CFT)策略。 安全机制:保证数据安全的加密算法,默认为ECDSA;支持国密算法。 - 购买时长 支持自定义购买服务的使用时间,最短1个月。 您可根据需要选择勾选自动续费,按月购买的自动续费周期为1个月,按年购买的自动续费周期为1年。 默认1个月 单击“立即创建”。 确认配置信息无误后,勾选协议和免责声明,并单击“提交”。 进入支付页面,确认订单费用无误后,单击“确认付款”,订单支付成功后,即可返回华为云区块链引擎服务控制台查看正在创建的服务。 服务创建大概需要18-25分钟,请耐心等待。服务创建成功后,查看服务状态变为“正常”后,表示华为云区块链引擎服务部署完成。