数据集格式要求-华为云

盘古大模型 PANGULARGEMODELS-气象类数据集格式要求

气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集，该数据集当前包括海洋气象数据。海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术，重新处理历史观测数据，生成高质量的气象记录。这些数据既可以覆盖全球范围，也可以针对特定区域，旨在提供完整、一致且高精度的气象数据。再分析数据为二进制格式，具体格式要求详见表1。表1 气象类数据集格式要求文件内容文件格式文件样例气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入：单个文件大小不超过50GB，文件数量不限制。天气数据通常包含全球或区域性的气象变量，如温度（T）、气压（P）、风速（U、V）等。在文件中，这些变量可能按时间、地理范围和气压层次进行组织。示例如下： {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["P", "T", "U", "V"], "upper_air_layers": ["1000hPa", "100hPa", "150hPa", "175hPa", "200hPa", "250hPa", "300hPa", "400hPa", "500hPa", "50hPa", "600hPa", "700hPa", "850hPa", "925hPa"], "upper_air_features": ["Q", "T", "U", "V", "Z"]} geo_range：定义了数据覆盖的地理范围，纬度（lat）从-90.0到90.0，经度（lon）从0.0到360.0。 time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_features：地表特征变量列表，例如气压（P）、温度（T）、风速（U、V）。 upper_air_layers：高空气压层列表，例如1000hPa、100hPa等。 upper_air_features：高空特征变量列表，例如湿度（Q）、温度（T）、风速（U、V）、高度（Z）。气象-海洋数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入：单个文件大小不超过50GB，文件数量不限制。海洋数据通常包含全球或区域性的海洋变量，如温度（T）、气压（P）、风速（U、V）等，具体格式示例如下 {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SSH", "T", "P", "U", "V"], "under_sea_layers": ["0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m"], "under_sea_features": [ "T", "U", "V", "S"]} geo_range：定义了数据覆盖的地理范围，纬度（lat）从-90.0到90.0，经度（lon）从0.0到360.0。 time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_features：海表特征变量列表，例如海表高度（SSH）、温度（T）、风速（U、V）。 under_sea_layers：深海层列表，例如500m、400mPa等。 under_sea_features：深海特征变量列表，例如海盐（S）、温度（T）、海流速率（U、V）。气象-生态数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入：单个文件大小不超过50GB，文件数量不限制。生态数据通常包含总叶绿素浓度（Tca）、叶绿素浓度（Chl）、硅藻浓度（Dia）等生态变量。示例如下： {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["Tca","Chl","Dia","Coc","Cya","Irn","Nit","MLD"]} geo_range：定义了数据覆盖的地理范围，纬度（lat）从-90.0到90.0，经度（lon）从0.0到360.0。 time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_features：生态特征列表，例如总叶绿素浓度（Tca）、叶绿素浓度（Chl）、硅藻浓度（Dia）。气象-海浪数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入：单个文件大小不超过50GB，文件数量不限制。海浪数据通常包有效波高（SWH）。示例如下： {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SWH"]} geo_range：定义了数据覆盖的地理范围，纬度（lat）从-90.0到90.0，经度（lon）从0.0到360.0。 time_range：数据的时间范围，时间戳格式为毫秒数。 total_size：数据文件的总大小，单位为字节。 surface_features：海浪特征：有效波高（SWH）。父主题：数据集格式要求

盘古大模型 PANGULARGEMODELS 数据集格式要求

盘古大模型 PANGULARGEMODELS-文本类数据集格式要求

文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 文本类数据集格式要求文件内容文件格式文件要求文档 txt、mobi、epub、docx、pdf 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。网页 html 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。预训练文本 jsonl jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下： {"text":"盘古大模型，是华为推出的盘古系列AI大模型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。单轮问答 jsonl、csv jsonl格式：数据由问答对构成，context、target分别表示问题、答案，具体格式示例如下： {"context": "你好，请介绍自己", "target": "我是盘古大模型"} csv格式：csv文件的第一列对应context，第二列对应target，具体格式示例如下： "你好，请介绍自己","我是盘古大模型" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。单轮问答（人设） jsonl、csv jsonl格式：system表示人设，context、target分别表示问题、答案。 {"system":"你是一个机智幽默问答助手","context":"你好，请介绍自己","target":"哈哈，你好呀，我是你的聪明助手。"} csv格式：csv文件的第一列对应system，第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好，请介绍自己","哈哈，你好呀，我是你的聪明助手。" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。多轮问答 jsonl jsonl格式：数组格式，至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]，其中context、target分别表示问题、答案。 [{"context":"你好","target":"你好，请问有什么可以帮助你的？"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。多轮问答（人设） jsonl jsonl格式：数组格式，至少由一组问答对构成。system表示人设，context、target分别表示问题、答案。 [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨！你好，需要点什么帮助吗？"},{"context":"能给我推荐点书吗？","target":"当然可以，基于你的兴趣，我推荐你阅读《自动驾驶的未来》。"}] 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。问答排序 jsonl、csv jsonl格式：context表示问题，targets答案1、2、3表示答案的优劣顺序，最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式：csv文件的第一列对应context，其余列为答案。 "问题","回答1","回答2","回答3" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。偏好优化DPO jsonl jsonl格式：context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。单轮问答 {"context": ["你好，请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"} 多轮问答 {"context": ["你好，请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。偏好优化DPO（人设） jsonl jsonl格式：system表示人设，context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。带人设单轮 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己"], "target":"哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "bad_target":"我不会回答"} 带人设多轮 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己", "哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多，不仅涵盖计算、存储和网络，还有更多选择哦！", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。父主题：数据集格式要求

盘古大模型 PANGULARGEMODELS 数据集格式要求

盘古大模型 PANGULARGEMODELS-预测类数据集格式要求

预测类数据集格式要求平台支持创建预测类数据集，创建时可导入时序数据、回归分类数据。时序数据：时序预测数据是一种按时间顺序排列的数据序列，用于预测未来事件或趋势，过去的数据会影响未来的预测。回归分类数据：回归分类数据包含多种预测因子（特征），用于预测连续变量的值，与时序数据不同，回归分类数据不要求数据具有时间顺序。具体格式要求详见表1。表1 预测类数据集格式要求文件内容文件格式文件样例时序分类、时序回归 csv 数据为结构化数据，包含列和行，每一行表示一条数据，每一列表示一个特征，并且必须包含预测目标列，回归预测目标列要求为连续型数据、分类预测目标列要求为离散数据。目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。时序预测必须要包含一个时间列，时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27 12:00:00 或 2024/05/27 12:00:00 。示例如下： timestamp,feature1,feature2,target 2024-05-27 12:00:00,10.5,20.3,100 2024-05-27 12:01:00,10.6,20.5,101 2024-05-27 12:02:00,10.7,20.7,102 2024-05-27 12:03:00,10.8,20.9,103 2024-05-27 12:04:00,10.9,21.0,104 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。结构化分类、结构化回归 csv 数据为结构化数据，包含列和行，每一行表示一条数据，每一列表示一个特征，并且必须包含预测目标列，回归预测目标列要求为连续型数据，分类预测目标列要求为离散数据。目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。示例如下： feature1,feature2,target 10.5,20.3,100 10.6,20.5,101 10.7,20.7,102 10.8,20.9,103 10.9,21.0,104 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。父主题：数据集格式要求

盘古大模型 PANGULARGEMODELS 数据集格式要求

盘古大模型 PANGULARGEMODELS-文本类数据集格式要求

文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 文本类数据集格式要求文件内容文件格式文件要求文档 txt、mobi、epub、docx、pdf 从OBS导入：单个文件大小不限制，文件数量不限制。网页 html 从OBS导入：单个文件大小不限制，文件数量不限制。预训练文本 jsonl jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下： {"text":"盘古大模型，是华为推出的盘古系列AI大模型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 从OBS导入：单个文件大小不限制，文件数量不限制。单轮问答 jsonl、csv jsonl格式：数据由问答对构成，context、target分别表示问题、答案，具体格式示例如下： {"context": "你好，请介绍自己", "target": "我是盘古大模型"} csv格式：csv文件的第一列对应context，第二列对应target，具体格式示例如下： "你好，请介绍自己","我是盘古大模型" 从OBS导入：单个文件大小不限制，文件数量不限制。单轮问答（人设） jsonl、csv jsonl格式：system表示人设，context、target分别表示问题、答案。 {"system":"你是一个机智幽默问答助手","context":"你好，请介绍自己","target":"哈哈，你好呀，我是你的聪明助手。"} csv格式：csv文件的第一列对应system，第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好，请介绍自己","哈哈，你好呀，我是你的聪明助手。" 从OBS导入：单个文件大小不限制，文件数量不限制。多轮问答 jsonl jsonl格式：数组格式，至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]，其中context、target分别表示问题、答案。 [{"context":"你好","target":"你好，请问有什么可以帮助你的？"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 从OBS导入：单个文件大小不限制，文件数量不限制。多轮问答（人设） jsonl jsonl格式：数组格式，至少由一组问答对构成。system表示人设，context、target分别表示问题、答案。 [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨！你好，需要点什么帮助吗？"},{"context":"能给我推荐点书吗？","target":"当然可以，基于你的兴趣，我推荐你阅读《自动驾驶的未来》。"}] 从OBS导入：单个文件大小不限制，文件数量不限制。问答排序 jsonl、csv jsonl格式：context表示问题，targets答案1、2、3表示答案的优劣顺序，最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式：csv文件的第一列对应context，其余列为答案。 "问题","回答1","回答2","回答3" 从OBS导入：单个文件大小不限制，文件数量不限制。偏好优化DPO jsonl jsonl格式：context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。单轮问答 {"context": ["你好，请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"} 多轮问答 {"context": ["你好，请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不限制，文件数量不限制。偏好优化DPO（人设） jsonl jsonl格式：system表示人设，context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。带人设单轮 {"system": "你是一位机制幽默的问答助手", "context": ["你好，请介绍自己"], "target":"哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "bad_target":"我不会回答"} 带人设多轮 {"system": "你是一位机制幽默的问答助手", "context": ["你好，请介绍自己", "哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多，不仅涵盖计算、存储和网络，还有更多选择哦！", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不限制，文件数量不限制。父主题：数据集格式要求

盘古大模型 PANGULARGEMODELS 数据集格式要求

盘古大模型 PANGULARGEMODELS-图片类数据集格式要求:姿态估计标注json文件说明

姿态估计标注json文件说明该说明适用于表1中的姿态估计标注文件格式。姿态估计标注基于开源coco人物关键点标注格式对数据集进行标注，需包含annotations，train，val文件夹。annotations文件夹下用train.json和val.json记录训练集和验证集标注，train和val文件夹下保存具体的图片，示例如下所示： ├─annotations │ train.json │ val.json ├─train │ IMG_20180919_114745.jpg ├─val │ IMG_20180919_114945.jpg 具体的json标注文件具体示例： { "images": [ { "license": 2, "file_name": "000000000139.jpg", "coco_url": "", "height": 426, "width": 640, "date_captured": "2013-11-21 01:34:01", "flickr_url": "", "id": 139 } ], "annotations": [ { "num_keypoints": 15, "area": 2913.1104, "iscrowd": 0, "keypoints": [ 427, 170, 1, 429, 169, 2, 0, 0, 0, 434, 168, 2, 0, 0, 0, 441, 177, 2, 446, 177, 2, 437, 200, 2, 430, 206, 2, 430, 220, 2, 420, 215, 2, 445, 226, 2, 452, 223, 2, 447, 260, 2, 454, 257, 2, 455, 290, 2, 459, 286, 2 ], "image_id": 139, "bbox": [ 412.8, 157.61, 53.05, 138.01 ], "category_id": 1, "id": 230831 }, ], "categories": [ { "supercategory": "person", "id": 1, "name": "person", "keypoints": [ "nose", "left_eye", "right_eye", "left_ear", "right_ear", "left_shoulder", "right_shoulder", "left_elbow", "right_elbow", "left_wrist", "right_wrist", "left_hip", "right_hip", "left_knee", "right_knee", "left_ankle", "right_ankle" ], "skeleton": [ [ 16, 14 ], [ 14, 12 ], [ 17, 15 ], [ 15, 13 ], [ 12, 13 ], [ 6, 12 ], [ 7, 13 ], [ 6, 7 ], [ 6, 8 ], [ 7, 9 ], [ 8, 10 ], [ 9, 11 ], [ 2, 3 ], [ 1, 2 ], [ 1, 3 ], [ 2, 4 ], [ 3, 5 ], [ 4, 6 ], [ 5, 7 ] ] } ] } 表4 COCO格式说明字段是否必选说明 images 是图片信息。 license 否图像的许可证标识符。 file_name 是图像的文件名。 coco_url 否图像在COCO官方数据集中的URL。 height 是图像的高度，以像素为单位。 width 是图像的宽度，以像素为单位。 date_captured 否图像捕获的日期和时间。 flickr_url 否图像在Flickr网站上的URL。 id 是图像的唯一标识符。 annotations 是标注信息。 num_keypoints 是标注的关键点数量。 area 是边界框的面积，以像素平方为单位。 iscrowd 是表示标注是否为复杂的群体场景（如拥挤的人群）。0表示不是拥挤场景，1表示是拥挤场景。 keypoints 是标注的关键点坐标及其可见性，按顺序列出所有关键点，每个关键点用三个数值表示 [x, y, v]。x和y是关键点的像素坐标，v是可见性（0：不可见且不在图像中；1：不可见但在图像中；2：可见且在图像中）。 image_id 是与该标注相关联的图像的ID，必须与images字段中的id对应。 bbox 是目标物体的边界框，用[x, y, width, height]表示，其中，x，y是边界框左上角的坐标，width和height是边界框的宽度和高度。 category_id 是标注类别的ID，对于人体姿态估计，通常为1（表示person）。 id 是标注的唯一标识符。 categories 是标注类型信息。 supercategory 是类别的上级分类，通常为person。 id 是类别的唯一标识符，对于人体姿态估计，通常为1。 name 是类别的名称，通常为person。 keypoints 是关键点的名称列表，COCO格式中通常定义了17个关键点，如nose、left_eye、right_eye、left_ear、right_ear、left_shoulder、right_shoulder、left_elbow、right_elbow、left_wrist、right_wrist、left_hip、right_hip、left_knee、right_knee、left_ankle、right_ankle。 skeleton 是定义骨架连接的列表，用于表示关键点之间的连接关系。每个连接用一对关键点索引表示，如 [1, 2]，表示鼻子（nose）到左眼（left_eye）的连线。

盘古大模型 PANGULARGEMODELS 数据集格式要求

盘古大模型 PANGULARGEMODELS-图片类数据集格式要求:异常检测数据集标注文件说明

异常检测数据集标注文件说明该说明适用于表1中的异常检测标注文件格式。要求用户将标注文件和图片存于同一文件夹，正常和异常分文件夹创建。当目录下存在对应的txt文件时，以txt文件内容作为正常或异常的标签。示例如下所示，import-dir-1和import-dir-2为导入子目录。 dataset-import-example ├─abnormal │ IMG_20180919_114732.jpg │ IMG_20180919_114732.txt │ IMG_20180919_114745.jpg │ IMG_20180919_114745.txt └─normal │ IMG_20180919_114945.jpg │ IMG_20180919_114945.txt │ IMG_20180919_114949.jpg │ IMG_20180919_114949.txt 异常标签的标签文件示例，如IMG_20180919_114732.txt文件内容如下所示。 abnormal 正常标签的标签文件示例，如IMG_20180919_114945.txt文件内容如下所示。 normal

盘古大模型 PANGULARGEMODELS 数据集格式要求

云服务器内容精选

数据集格式要求