AI开发平台MODELARTS-准备代码:获取数据及代码

时间:2024-06-17 15:07:55

获取数据及代码

表1 准备代码

代码包名称

代码说明

下载地址

AscendCloud-3rdLLM-6.3.904-xxx.zip

说明:

软件包名称中的xxx表示时间戳。

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍

AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。

获取路径:Support网站

说明:

如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。

权重和词表文件

包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。

标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此标记器(Tokenizer)需要将文本输入转换为数字数据。

baichuan2-13b-chat

这个路径下既有权重,也有Tokenizer,全部下载。具体内容参见权重和词表文件介绍

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1914.html