准备工作-华为云

数据治理中心 DATAARTS STUDIO-购买专享版集群:设置API分配配额

设置API分配配额专享版集群创建成功后，需要设置API分配配额，当分配配额之后，才能创建相应的API，配额设置参考如下步骤。在DataArts Studio“空间管理”页签中，单击工作空间操作列“编辑”。图5 编辑空间管理在“空间信息”中，单击“设置”按钮对已分配配额进行配置。图6 设置已分配配额数据服务专享版在每个DataArts Studio实例下具有创建10个专享版API免费试用额度，超出试用配额后会产生数据服务专享版API的费用，所创建的超出试用配额API按每天每个按1元收费。设置专享版API已分配配额。图7 设置配额已分配配额不能小于已使用配额，不能大于总配额-总分配配额+已分配配额。

数据治理中心 DATAARTS STUDIO 准备工作

数据治理中心 DATAARTS STUDIO-购买专享版集群:设置日志转储

设置日志转储完成购买集群后，可以设置日志转储功能。开启后，集群中当前工作空间下API的所有访问日志，会转储到工作空间指定的OBS桶或者LTS日志中。在集群页面单击集群名称，进入基本信息页签。图8 基本信息选择打开日志转储功能，选择转储方式，目前支持OBS和LTS两种方式。图9 转储方式选择当选择OBS存储，当前工作空间中API的所有访问日志，会转储到工作空间指定的OBS桶。当选择LTS存储，在选择转储方式前，需要在LTS服务中提前新建日志组和日志流，如何新建日志组和日志流请参考云日志接入。选择后当前工作空间中API的所有访问日志，会转储到LTS服务新建的日志流中。

数据治理中心 DATAARTS STUDIO 准备工作

数据治理中心 DATAARTS STUDIO-购买专享版集群:操作步骤

操作步骤购买数据服务专享集群增量包，系统会按照您所选规格自动创建一个数据服务专享集群。单击已开通实例卡片上的“购买增量包”。进入购买DataArts Studio增量包页面，参见表1进行配置。表1 购买数据服务专享版实例参数说明参数项说明增量包类型选择数据服务专享集群增量包。计费方式实例收费方式，当前支持“包年包月”。工作空间选择需要使用数据服务专享集群增量包的工作空间。例如需要在DataArts Studio实例的工作空间A中使用数据服务专享版，则此处工作空间应选择为A。集群购买成功后，即可通过在工作空间A查看到创建好的数据服务专享集群。如果需要在其他工作空间内使用该集群，您可以在集群创建成功后，参考管理集群共享将该集群共享给其他工作空间。可用区第一次购买DataArts Studio实例或批增量包时，可用区无要求。再次购买DataArts Studio实例或增量包时，是否将资源放在同一可用区内，主要取决于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延时较低，则建议您将资源创建在同一可用区内。详情请参见什么是可用区。集群名称 - 集群描述可以自定义对当前数据服务专享版集群的描述。版本当前数据服务专享版的集群版本。集群规格不同实例规格，对API数量的支持能力不同。公网入口开启“公网入口”，即允许外部服务通过公网地址，调用专享版实例创建的API。带宽大小可配置公网带宽范围。虚拟私有云 DataArts Studio实例中的数据服务专享版集群所属的VPC、子网、安全组。在相同VPC、子网、安全组中的云服务资源（如ECS），可以使用数据服务专享版实例的私有地址调用API。建议将专享版集群和您的其他关联业务配置一个相同的VPC、子网、安全组，确保网络安全的同时，方便网络配置。 VPC、子网、安全组的详细操作，请参见《虚拟私有云用户指南》。说明：目前专享版集群创建完成后不支持切换VPC、子网、安全组，请谨慎选择。如果开启公网入口，安全组入方向需要放开80（HTTP）和443（HTTPS）端口的访问权限。此处支持选择共享VPC子网，即由VPC的所有者将VPC内的子网共享给当前账号，由当前账号在购买数据服务专享版集群时选择共享VPC子网。通过共享VPC子网功能，可以简化网络配置，帮助您统一配置和运维多个账号下的资源，有助于提升资源的管控效率，降低运维成本。如何共享VPC子网，请参考《共享VPC》。子网安全组企业项目 DataArts Studio专享版集群关联的企业项目。企业项目管理是一种按企业项目管理云资源的方式，具体请参见企业管理用户指南。节点数量 - 购买时长 - 单击“立即购买”，确认规格后提交。

数据治理中心 DATAARTS STUDIO 准备工作

数据治理中心 DATAARTS STUDIO-购买专享版集群:网络环境准备

网络环境准备如图1所示，专享版集群创建后，资源位于资源租户区，由ELB统一对集群节点进行负载均衡。用户可以通过两种途径访问集群：内网地址：内网地址为用户VPC内的终端节点IP地址。外网地址（可选）：外网地址为绑定在ELB上的EIP地址。EIP仅在创建数据服务集群时，勾选开启公网入口，才会具备。图1 专享版集群网络架构说明因此，为了保证创建的专享版集群能够被用户访问，创建中需要注意如下网络配置： VPC 虚拟私有云。专享版实例需要配置虚拟私有云（VPC），在同一VPC中的资源（如ECS），可以使用专享版实例的私有地址调用API。在购买时专享版实例时，建议配置和您其他关联业务相同VPC，确保网络安全的同时，方便网络配置。弹性公网IP 专享版实例的API如果要允许外部调用，则需要购买一个弹性公网IP，并在购买时绑定给实例，作为实例的公网入口。安全组安全组类似防火墙，控制谁能访问实例的指定端口，以及控制实例的通信数据流向指定的目的地址。安全组入方向规则建议按需开放地址与端口，这样可以最大程度保护实例的网络安全。专享版实例绑定的安全组有如下要求：入方向：如果需要从公网调用API，或从其他安全组内资源调用API，则需要为专享版实例绑定的安全组的入方向放开80（HTTP）、443（HTTPS）两个端口。出方向：如果后端服务部署在公网，或者其他安全组内，则需要为专享版实例绑定的安全组的出方向放开后端服务地址与API调用监听端口。如果API的前后端服务与专享版实例绑定了相同的安全组、相同的虚拟私有云，则无需专门为专享版实例开放上述端口。路由配置在物理机纳管场景下，如果物理机纳管网段与集群网段不一致，需要配置路由。进入集群“基本信息”页面，单击配置路由项的“新建”按钮，新增物理机的IP地址，如图2所示。图2 基本信息

数据治理中心 DATAARTS STUDIO 准备工作

数据治理中心 DATAARTS STUDIO-购买专享版集群:管理集群共享

管理集群共享专享版集群创建成功后，默认仅能在绑定的工作空间内使用。如果您需要在其他工作空间使用此集群，则可以进行集群共享，共享后在其他工作空间可查看、使用但不能管理该集群，并能将API发布至该集群。在绑定工作空间的数据服务集群页面，单击集群名称，进入集群详情页面。在集群详情页面，单击“共享管理”页签，进入共享管理页面。图3 进入共享管理页面单击“共享”，在弹出的窗口中勾选需要共享的工作空间后，单击“确定”完成集群共享。图4 选择工作空间对于已共享集群的工作空间，您可以在该工作空间内，正常查看、使用该集群。如后续需要取消该工作空间的集群共享，则需要先下线该工作空间已在集群上发布的API，再到绑定工作空间的数据服务集群详情页面，取消共享。

数据治理中心 DATAARTS STUDIO 准备工作

AI开发平台MODELARTS-准备代码:上传代码到工作环境

上传代码到工作环境使用root用户以SSH的方式登录DevServer。将AscendSpeed代码包AscendCloud-3rdLLM-xxx-xxx.zip上传到${workdir}目录下并解压缩，如：/home/ma-user/ws目录下，以下都以/home/ma-user/ws为例。 unzip AscendCloud-3rdLLM-xxx-xxx.zip #解压缩，-xxx-xxx表示软件包版本号和时间戳上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/BaiChuan2-13B目录。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws。 cd /home/ma-user/ws mkdir -p tokenizers/BaiChuan2-13B 将权重和词表文件文件放置此处。修改tokenizer目录下tokenization_baichuan.py中约71行内容。调整 super().__init__(）位置：将super().__init__(）放置def __init__(）方法最底层，如下图所示。图1 修改tokenization_baichuan.py

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备代码:权重和词表文件介绍

权重和词表文件介绍下载完毕后的HuggingFace原始权重文件包含以下内容，此处以baichuan2-13B为例。 baichuan2-13B ├── config.json ├── configuration_baichuan.py ├── generation_config.json ├── generation_utils.py ├── handler.py ├── modeling_baichuan.py ├── pytorch_model-00001-of-00003.bin ├── pytorch_model-00002-of-00003.bin ├── pytorch_model-00003-of-00003.bin ├── pytorch_model.bin.index.json ├── quantizer.py ├── README.md ├── special_tokens_map.json ├── tokenization_baichuan.py ├── tokenizer_config.json ├── tokenizer.model ├── transform.ckpt ├── transformed.ckpt

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备代码:获取数据及代码

获取数据及代码表1 准备代码代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support网站说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。权重和词表文件包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的：将文本转换为模型可以处理的数据。模型只能处理数字，因此标记器(Tokenizer)需要将文本输入转换为数字数据。 baichuan2-13b-chat 这个路径下既有权重，也有Tokenizer，全部下载。具体内容参见权重和词表文件介绍。

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备代码:代码目录介绍

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval #精度评测 ├──benchmark_tools #性能评测 ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码 ├──scripts/ #训练需要的启动脚本本教程需要使用到的训练相关代码存放在llm_train/AscendSpeed目录下，具体文件介绍如下： ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码，数据预处理脚本 ├──scripts/ #训练需要的启动脚本，调用ModelLink ├──baichuan2 #Baichuan2的训练代码 ├──baichuan2.sh #Baichuan2训练脚本

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备数据:自定义数据

自定义数据用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key 标志来选择用于训练的列。 { 'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' }

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备数据:Alpaca数据集

Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。预训练使用的Alpaca数据集下载：https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。 SFT和LoRA微调使用的Alpaca数据集下载：https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json，数据大小：43.6 MB。

AI开发平台MODELARTS 准备工作

AI开发平台MODELARTS-准备数据:上传数据到指定目录

上传数据到指定目录将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下：进入到/home/ma-user/ws/目录下。创建目录“training_data”，并将原始数据放置在此处。 mkdir training_data 数据存放参考目录结构如下： ${workdir}（例如/home/ma-user/ws ） |── training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件

AI开发平台MODELARTS 准备工作

可信智能计算服务 TICS-购买Model Lite资源池:操作步骤

操作步骤以主账号登录ModelArts管理控制台。在控制台左下方，单击“专属资源池”下拉框，选择“弹性集群”，进入资源池创建页面。在资源池创建页面，单击“创建”，进入购买专属资源池页面。进入购买专属资源池页面后，配置购买参数，各参数说明如表2-6所示。表1 联盟信息配置参数参数名称说明样例名称资源池的名称，创建时会随机生成一个名字。 pool-6e8a 描述对创建的资源池进行说明。 - 使用场景分为Standard弹性集群与Lite弹性集群，联邦学习对接MA需要选择Lite弹性集群。 ModelArts Lite 计费模式选择Lite弹性集群目前默认包年/包月计费模式。包年/包月 CCE集群选择创建完成的CCE集群，如果没有可用的CCE集群，可单击右边的“创建集群”按钮，购买CCE集群。 - 自定义节点名称集群节点名称，会随机生成，用户也可以根据自己需求来指定节点前缀名。 - 规格管理选择规则类型、可用区、节点数量等。 - 购买时长购买资源池的时间，用户可以根据续期选择，到期后，会自动清理。 - 自动续费用户根据需求选择是否选择自动续费。 - 登录方式选择登录方式，有密码和密钥对两种方式。选择密码登录，默认用户名为“root”，需要设置密码用来登录节点后台。选择密钥对，需要选择密钥对，如果没有密钥对，可以单击右边“创建密钥对”按钮创建。 -

可信智能计算服务 TICS 准备工作

应用平台 APPSTAGE-购买AppStage:购买须知

购买须知需先选购产品套餐，才能选购产品对应的增量包。如果已开通的产品套餐到期，则对应的增量包不可使用，需将产品套餐续订后增量包才可以继续使用。 AppStage的运行时引擎依赖于运维中心能力，需先选购运维中心才能选购运行时引擎。运行时引擎实例依赖运维中心实例，如果选购运行时引擎产品套餐和增量包，则运行时引擎的实例数量必须和运维中心的实例数量保持一致。订单支付成功后自动开通服务，生效时间以订单时间为准。

应用平台 APPSTAGE 准备工作

应用平台 APPSTAGE-购买AppStage:更多操作

更多操作订单支付成功后，返回应用平台控制台“总览”页面，还可执行如表1所示的操作。表1 更多操作操作说明步骤快速订购继续购买新规格。在“套餐详情”区域单击“快速订购”。在应用平台AppStage总览页，参照3，继续购买新规格。升级将AppStage免费版升级为专业版。该功能仅对使用AppStage免费版的特定VIP用户可见。说明：套餐升级后，有效期与原周期相同，配置费用 = 新套餐价格 * 剩余周期。订单支付成功后自动升级服务，生效时间以订单时间为准。升级成功后将不能再使用免费版，只能使用AppStage所有产品的专业版。在“套餐详情”区域单击“升级”。确认当前配置和升级后配置信息。在“协议许可”区域勾选“我已阅读并同意《应用平台AppStage服务声明》”。单击右下角“立即升级”。在“支付方式”区域，选择“余额支付”或“在线支付”，然后单击“确认付款”。支付完成后，系统会提示“订单支付成功”。单击“查看订单详情”进入“我的订单”详情页，可查看订单详情信息，如支付信息、资源信息等。单击“返回应用平台控制台”，进入应用平台控制台“总览”页面。续费 AppStage相关的订单到期后会影响AppStage各中心的使用。如果您想继续使用，需要在指定的时间内续费订单。说明：续费操作仅适用于包年/包月资源，按需计费资源不需要续费，只需要保证账户余额充足即可。关于续费的详细介绍请参见续费。在应用平台控制台左侧导航栏选择“总览”，然后在“套餐详情”区域单击“续费”，进入费用中心的“续费管理”页面。在“续费管理”页面，自定义查询条件。可在“手动续费项”、“自动续费项”、“到期转按需项”、“到期不续费项”页签查询全部待续费项，对套餐进行手动续费的操作，具体操作请参见如何恢复为手动续费。在列表中找到需要续费的订单，单击操作列的“续费”。选择续费时长，判断是否勾选“统一到期日”，将套餐到期时间统一到各个月的某一天（详细介绍请参见统一包年/包月资源的到期日）。确认配置费用后单击“去支付”。进入支付页面，选择支付方式，确认付款，支付订单后即可完成续费。退订退订已购买的包年包月资源（适用于退订开发中心/运维中心/运行时引擎/运营中心/AI原生应用引擎的包年/包月资源）。在应用平台控制台左侧导航栏选择“总览”，然后在“套餐详情”区域单击“退订”，进入费用中心的“云服务退订”页面。参照云服务退订完成产品退订。退订已购买的按需计费资源（适用于退订AI原生应用引擎的按需计费资源）。在应用平台控制台左侧导航栏选择“AI原生应用引擎”，在AI原生应用引擎详情页面的“我的资源”区域的资源列表中，单击需要停止计费的资源“操作”列的“退订”。在“退订资源”对话框中，确认要退订的资源，单击“一键输入”自动在输入框填入“退订资源”，如图1所示。图1 退订按需计费的资源单击“确定”，即可退订该按需计费资源。

应用平台 APPSTAGE 准备工作

云服务器内容精选

准备工作

7*24

备案

专业服务

退订

建议反馈

售前咨询热线