云服务器内容精选
-
设置API分配配额 专享版集群创建成功后,需要设置API分配配额,当分配配额之后,才能创建相应的API,配额设置参考如下步骤。 在DataArts Studio“空间管理”页签中,单击工作空间操作列“编辑”。 图5 编辑空间管理 在“空间信息”中,单击“设置”按钮对已分配配额进行配置。 图6 设置已分配配额 数据服务专享版在每个DataArts Studio实例下具有创建10个专享版API免费试用额度,超出试用配额后会产生数据服务专享版API的费用,所创建的超出试用配额API按每天每个按1元收费。 设置专享版API已分配配额。 图7 设置配额 已分配配额不能小于已使用配额,不能大于总配额-总分配配额+已分配配额。
-
设置日志转储 完成购买集群后,可以设置日志转储功能。开启后,集群中当前工作空间下API的所有访问日志,会转储到工作空间指定的OBS桶或者LTS日志中。 在集群页面单击集群名称,进入基本信息页签。 图8 基本信息 选择打开日志转储功能,选择转储方式,目前支持OBS和LTS两种方式。 图9 转储方式选择 当选择OBS存储,当前工作空间中API的所有访问日志,会转储到工作空间指定的OBS桶。 当选择LTS存储,在选择转储方式前,需要在LTS服务中提前新建日志组和日志流,如何新建日志组和日志流请参考云日志接入。选择后当前工作空间中API的所有访问日志,会转储到LTS服务新建的日志流中。
-
操作步骤 购买数据服务专享集群增量包,系统会按照您所选规格自动创建一个数据服务专享集群。 单击已开通实例卡片上的“购买增量包”。 进入购买DataArts Studio增量包页面,参见表1进行配置。 表1 购买数据服务专享版实例参数说明 参数项 说明 增量包类型 选择数据服务专享集群增量包。 计费方式 实例收费方式,当前支持“包年包月”。 工作空间 选择需要使用数据服务专享集群增量包的工作空间。例如需要在DataArts Studio实例的工作空间A中使用数据服务专享版,则此处工作空间应选择为A。集群购买成功后,即可通过在工作空间A查看到创建好的数据服务专享集群。 如果需要在其他工作空间内使用该集群,您可以在集群创建成功后,参考管理集群共享将该集群共享给其他工作空间。 可用区 第一次购买DataArts Studio实例或批增量包时,可用区无要求。 再次购买DataArts Studio实例或增量包时,是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。 详情请参见什么是可用区。 集群名称 - 集群描述 可以自定义对当前数据服务专享版集群的描述。 版本 当前数据服务专享版的集群版本。 集群规格 不同实例规格,对API数量的支持能力不同。 公网入口 开启“公网入口”,即允许外部服务通过公网地址,调用专享版实例创建的API。 带宽大小 可配置公网带宽范围。 虚拟私有云 DataArts Studio实例中的数据服务专享版集群所属的VPC、子网、安全组。 在相同VPC、子网、安全组中的云服务资源(如ECS),可以使用数据服务专享版实例的私有地址调用API。建议将专享版集群和您的其他关联业务配置一个相同的VPC、子网、安全组,确保网络安全的同时,方便网络配置。 VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。 说明: 目前专享版集群创建完成后不支持切换VPC、子网、安全组,请谨慎选择。 如果开启公网入口,安全组入方向需要放开80(HTTP)和443(HTTPS)端口的访问权限。 此处支持选择共享VPC子网,即由VPC的所有者将VPC内的子网共享给当前账号,由当前账号在购买数据服务专享版集群时选择共享VPC子网。通过共享VPC子网功能,可以简化网络配置,帮助您统一配置和运维多个账号下的资源,有助于提升资源的管控效率,降低运维成本。如何共享VPC子网,请参考《共享VPC》。 子网 安全组 企业项目 DataArts Studio专享版集群关联的企业项目。企业项目管理是一种按企业项目管理云资源的方式,具体请参见企业管理用户指南。 节点数量 - 购买时长 - 单击“立即购买”,确认规格后提交。
-
网络环境准备 如图1所示,专享版集群创建后,资源位于资源租户区,由ELB统一对集群节点进行负载均衡。 用户可以通过两种途径访问集群: 内网地址:内网地址为用户VPC内的终端节点IP地址。 外网地址(可选):外网地址为绑定在ELB上的EIP地址。EIP仅在创建数据服务集群时,勾选开启公网入口,才会具备。 图1 专享版集群网络架构说明 因此,为了保证创建的专享版集群能够被用户访问,创建中需要注意如下网络配置: VPC 虚拟私有云。专享版实例需要配置虚拟私有云(VPC),在同一VPC中的资源(如ECS),可以使用专享版实例的私有地址调用API。 在购买时专享版实例时,建议配置和您其他关联业务相同VPC,确保网络安全的同时,方便网络配置。 弹性公网IP 专享版实例的API如果要允许外部调用,则需要购买一个弹性公网IP,并在购买时绑定给实例,作为实例的公网入口。 安全组 安全组类似防火墙,控制谁能访问实例的指定端口,以及控制实例的通信数据流向指定的目的地址。安全组入方向规则建议按需开放地址与端口,这样可以最大程度保护实例的网络安全。 专享版实例绑定的安全组有如下要求: 入方向:如果需要从公网调用API,或从其他安全组内资源调用API,则需要为专享版实例绑定的安全组的入方向放开80(HTTP)、443(HTTPS)两个端口。 出方向:如果后端服务部署在公网,或者其他安全组内,则需要为专享版实例绑定的安全组的出方向放开后端服务地址与API调用监听端口。 如果API的前后端服务与专享版实例绑定了相同的安全组、相同的虚拟私有云,则无需专门为专享版实例开放上述端口。 路由配置 在物理机纳管场景下,如果物理机纳管网段与集群网段不一致,需要配置路由。 进入集群“基本信息”页面,单击配置路由项的“新建”按钮,新增物理机的IP地址,如图2所示。 图2 基本信息
-
管理集群共享 专享版集群创建成功后,默认仅能在绑定的工作空间内使用。如果您需要在其他工作空间使用此集群,则可以进行集群共享,共享后在其他工作空间可查看、使用但不能管理该集群,并能将API发布至该集群。 在绑定工作空间的数据服务集群页面,单击集群名称,进入集群详情页面。 在集群详情页面,单击“共享管理”页签,进入共享管理页面。 图3 进入共享管理页面 单击“共享”,在弹出的窗口中勾选需要共享的工作空间后,单击“确定”完成集群共享。 图4 选择工作空间 对于已共享集群的工作空间,您可以在该工作空间内,正常查看、使用该集群。 如后续需要取消该工作空间的集群共享,则需要先下线该工作空间已在集群上发布的API,再到绑定工作空间的数据服务集群详情页面,取消共享。
-
上传代码到工作环境 使用root用户以SSH的方式登录DevServer。 将AscendSpeed代码包AscendCloud-3rdLLM-xxx-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例。 unzip AscendCloud-3rdLLM-xxx-xxx.zip #解压缩,-xxx-xxx表示软件包版本号和时间戳 上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/BaiChuan2-13B目录。 具体步骤如下: 进入到${workdir}目录下,如:/home/ma-user/ws。 cd /home/ma-user/ws mkdir -p tokenizers/BaiChuan2-13B 将 权重和词表文件 文件放置此处。 修改tokenizer目录下tokenization_baichuan.py中约71行内容。 调整 super().__init__()位置:将super().__init__()放置def __init__()方法最底层,如下图所示。 图1 修改tokenization_baichuan.py
-
权重和词表文件介绍 下载完毕后的HuggingFace原始权重文件包含以下内容,此处以baichuan2-13B为例。 baichuan2-13B ├── config.json ├── configuration_baichuan.py ├── generation_config.json ├── generation_utils.py ├── handler.py ├── modeling_baichuan.py ├── pytorch_model-00001-of-00003.bin ├── pytorch_model-00002-of-00003.bin ├── pytorch_model-00003-of-00003.bin ├── pytorch_model.bin.index.json ├── quantizer.py ├── README.md ├── special_tokens_map.json ├── tokenization_baichuan.py ├── tokenizer_config.json ├── tokenizer.model ├── transform.ckpt ├── transformed.ckpt
-
获取数据及代码 表1 准备代码 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support网站 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 权重和词表文件 包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。 标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此标记器(Tokenizer)需要将文本输入转换为数字数据。 baichuan2-13b-chat 这个路径下既有权重,也有Tokenizer,全部下载。具体内容参见权重和词表文件介绍。
-
代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下: xxx-Ascend #xxx表示版本号 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval #精度评测 ├──benchmark_tools #性能评测 ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码 ├──scripts/ #训练需要的启动脚本 本教程需要使用到的训练相关代码存放在llm_train/AscendSpeed目录下,具体文件介绍如下: ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码,数据预处理脚本 ├──scripts/ #训练需要的启动脚本,调用ModelLink ├──baichuan2 #Baichuan2的训练代码 ├──baichuan2.sh #Baichuan2训练脚本
-
自定义数据 用户也可以自行准备训练数据。数据要求如下: 使用标准的.json格式的数据,通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称,默认为text。在维基百科数据集中,它有四列,分别是id、url、title和text。可以指定–json-key 标志来选择用于训练的列。 { 'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' }
-
Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优,使语言模型更好地遵循指令。 预训练使用的Alpaca数据集下载:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json,数据大小:43.6 MB。
-
上传数据到指定目录 将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下: 进入到/home/ma-user/ws/目录下。 创建目录“training_data”,并将原始数据放置在此处。 mkdir training_data 数据存放参考目录结构如下: ${workdir}(例如/home/ma-user/ws ) |── training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件
-
操作步骤 以主账号登录ModelArts管理控制台。 在控制台左下方,单击“专属资源池”下拉框,选择“弹性集群”,进入资源池创建页面。 在资源池创建页面,单击“创建”,进入购买专属资源池页面。 进入购买专属资源池页面后,配置购买参数,各参数说明如表2-6所示。 表1 联盟信息配置参数 参数名称 说明 样例 名称 资源池的名称,创建时会随机生成一个名字。 pool-6e8a 描述 对创建的资源池进行说明。 - 使用场景 分为Standard弹性集群与Lite弹性集群,联邦学习对接MA需要选择Lite弹性集群。 ModelArts Lite 计费模式 选择Lite弹性集群目前默认包年/包月计费模式。 包年/包月 CCE集群 选择创建完成的CCE集群,如果没有可用的CCE集群,可单击右边的“创建集群”按钮,购买CCE集群。 - 自定义节点名称 集群节点名称,会随机生成,用户也可以根据自己需求来指定节点前缀名。 - 规格管理 选择规则类型、可用区、节点数量等。 - 购买时长 购买资源池的时间,用户可以根据续期选择,到期后,会自动清理。 - 自动续费 用户根据需求选择是否选择自动续费。 - 登录方式 选择登录方式,有密码和密钥对两种方式。 选择密码登录,默认用户名为“root”,需要设置密码用来登录节点后台。 选择密钥对,需要选择密钥对,如果没有密钥对,可以单击右边“创建密钥对”按钮创建。 -
-
购买须知 需先选购产品套餐,才能选购产品对应的增量包。 如果已开通的产品套餐到期,则对应的增量包不可使用,需将产品套餐续订后增量包才可以继续使用。 AppStage的运行时引擎依赖于运维中心能力,需先选购运维中心才能选购运行时引擎。 运行时引擎实例依赖运维中心实例,如果选购运行时引擎产品套餐和增量包,则运行时引擎的实例数量必须和运维中心的实例数量保持一致。 订单支付成功后自动开通服务,生效时间以订单时间为准。
-
更多操作 订单支付成功后,返回应用平台控制台“总览”页面,还可执行如表1所示的操作。 表1 更多操作 操作 说明 步骤 快速订购 继续购买新规格。 在“套餐详情”区域单击“快速订购”。 在应用平台AppStage总览页,参照3,继续购买新规格。 升级 将AppStage免费版升级为专业版。 该功能仅对使用AppStage免费版的特定VIP用户可见。 说明: 套餐升级后,有效期与原周期相同,配置费用 = 新套餐价格 * 剩余周期。 订单支付成功后自动升级服务,生效时间以订单时间为准。 升级成功后将不能再使用免费版,只能使用AppStage所有产品的专业版。 在“套餐详情”区域单击“升级”。 确认当前配置和升级后配置信息。 在“协议许可”区域勾选“我已阅读并同意《应用平台AppStage服务声明》”。 单击右下角“立即升级”。 在“支付方式”区域,选择“余额支付”或“在线支付”,然后单击“确认付款”。 支付完成后,系统会提示“订单支付成功”。 单击“查看订单详情”进入“我的订单”详情页,可查看订单详情信息,如支付信息、资源信息等。 单击“返回应用平台控制台”,进入应用平台控制台“总览”页面。 续费 AppStage相关的订单到期后会影响AppStage各中心的使用。如果您想继续使用,需要在指定的时间内续费订单。 说明: 续费操作仅适用于包年/包月资源,按需计费资源不需要续费,只需要保证账户余额充足即可。 关于续费的详细介绍请参见续费。 在应用平台控制台左侧导航栏选择“总览”,然后在“套餐详情”区域单击“续费”,进入费用中心的“续费管理”页面。 在“续费管理”页面,自定义查询条件。 可在“手动续费项”、“自动续费项”、“到期转按需项”、“到期不续费项”页签查询全部待续费项,对套餐进行手动续费的操作,具体操作请参见如何恢复为手动续费。 在列表中找到需要续费的订单,单击操作列的“续费”。 选择续费时长,判断是否勾选“统一到期日”,将套餐到期时间统一到各个月的某一天(详细介绍请参见统一包年/包月资源的到期日)。确认配置费用后单击“去支付”。 进入支付页面,选择支付方式,确认付款,支付订单后即可完成续费。 退订 退订已购买的包年包月资源(适用于退订开发中心/运维中心/运行时引擎/运营中心/AI原生应用引擎的包年/包月资源)。 在应用平台控制台左侧导航栏选择“总览”,然后在“套餐详情”区域单击“退订”,进入费用中心的“云服务退订”页面。 参照云服务退订完成产品退订。 退订已购买的按需计费资源(适用于退订AI原生应用引擎的按需计费资源)。 在应用平台控制台左侧导航栏选择“AI原生应用引擎”,在AI原生应用引擎详情页面的“我的资源”区域的资源列表中,单击需要停止计费的资源“操作”列的“退订”。 在“退订资源”对话框中,确认要退订的资源,单击“一键输入”自动在输入框填入“退订资源”,如图1所示。 图1 退订按需计费的资源 单击“确定”,即可退订该按需计费资源。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格