-
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能按时间、地理范围和气压层次进行组织。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["P", "T", "U", "V"], "upper_air_layers": ["1000hPa", "100hPa", "150hPa", "175hPa", "200hPa", "250hPa", "300hPa", "400hPa", "500hPa", "50hPa", "600hPa", "700hPa", "850hPa", "925hPa"], "upper_air_features": ["Q", "T", "U", "V", "Z"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:地表特征变量列表,例如气压(P)、温度(T)、风速(U、V)。 upper_air_layers:高空气压层列表,例如1000hPa、100hPa等。 upper_air_features:高空特征变量列表,例如湿度(Q)、温度(T)、风速(U、V)、高度(Z)。 气象-海洋数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 海洋数据通常包含全球或区域性的海洋变量,如温度(T)、气压(P)、风速(U、V)等,具体格式示例如下 {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SSH", "T", "P", "U", "V"], "under_sea_layers": ["0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m"], "under_sea_features": [ "T", "U", "V", "S"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:海表特征变量列表,例如海表高度(SSH)、温度(T)、风速(U、V)。 under_sea_layers:深海层列表,例如500m、400mPa等。 under_sea_features:深海特征变量列表,例如海盐(S)、温度(T)、海流速率(U、V)。 气象-生态数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 生态数据通常包含总叶绿素浓度(Tca)、叶绿素浓度(Chl)、硅藻浓度(Dia)等生态变量。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["Tca","Chl","Dia","Coc","Cya","Irn","Nit","MLD"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:生态特征列表,例如总叶绿素浓度(Tca)、叶绿素浓度(Chl)、硅藻浓度(Dia)。 气象-海浪数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 海浪数据通常包有效波高(SWH)。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SWH"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:海浪特征:有效波高(SWH)。 父主题: 数据集格式要求
-
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 网页 html 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 单轮问答 jsonl、csv jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下: {"context": "你好,请介绍自己", "target": "我是盘古大模型"} csv格式:csv文件的第一列对应context,第二列对应target,具体格式示例如下: "你好,请介绍自己","我是盘古大模型" 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 单轮问答(人设) jsonl、csv jsonl格式:system表示人设,context、target分别表示问题、答案。 {"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"} csv格式:csv文件的第一列对应system,第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。" 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 多轮问答 jsonl jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案。 [{"context":"你好","target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 多轮问答(人设) jsonl jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案。 [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}] 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 问答排序 jsonl、csv jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式:csv文件的第一列对应context,其余列为答案。 "问题","回答1","回答2","回答3" 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 偏好优化DPO jsonl jsonl格式:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。 单轮问答
{"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
多轮问答
{"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 偏好优化DPO(人设) jsonl jsonl格式:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。 带人设单轮
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
带人设多轮
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"} 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 父主题: 数据集格式要求
-
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序分类、时序回归 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据、分类预测目标列要求为离散数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。 时序预测必须要包含一个时间列,时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27 12:00:00 或 2024/05/27 12:00:00 。 示例如下: timestamp,feature1,feature2,target
2024-05-27 12:00:00,10.5,20.3,100
2024-05-27 12:01:00,10.6,20.5,101
2024-05-27 12:02:00,10.7,20.7,102
2024-05-27 12:03:00,10.8,20.9,103
2024-05-27 12:04:00,10.9,21.0,104 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 结构化分类、结构化回归 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,回归预测目标列要求为连续型数据,分类预测目标列要求为离散数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。 示例如下: feature1,feature2,target
10.5,20.3,100
10.6,20.5,101
10.7,20.7,102
10.8,20.9,103
10.9,21.0,104 从OBS导入:单个文件大小不超过50GB,文件数量不限制。 本地上传:单个文件大小不超过10M,文件数量最多100个。 父主题: 数据集格式要求
-
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 从OBS导入:单个文件大小不限制,文件数量不限制。 网页 html 从OBS导入:单个文件大小不限制,文件数量不限制。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 从OBS导入:单个文件大小不限制,文件数量不限制。 单轮问答 jsonl、csv jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下: {"context": "你好,请介绍自己", "target": "我是盘古大模型"} csv格式:csv文件的第一列对应context,第二列对应target,具体格式示例如下: "你好,请介绍自己","我是盘古大模型" 从OBS导入:单个文件大小不限制,文件数量不限制。 单轮问答(人设) jsonl、csv jsonl格式:system表示人设,context、target分别表示问题、答案。 {"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"} csv格式:csv文件的第一列对应system,第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。" 从OBS导入:单个文件大小不限制,文件数量不限制。 多轮问答 jsonl jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案。 [{"context":"你好","target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 从OBS导入:单个文件大小不限制,文件数量不限制。 多轮问答(人设) jsonl jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案。 [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}] 从OBS导入:单个文件大小不限制,文件数量不限制。 问答排序 jsonl、csv jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式:csv文件的第一列对应context,其余列为答案。 "问题","回答1","回答2","回答3" 从OBS导入:单个文件大小不限制,文件数量不限制。 偏好优化DPO jsonl jsonl格式:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。 单轮问答
{"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
多轮问答
{"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} 从OBS导入:单个文件大小不限制,文件数量不限制。 偏好优化DPO(人设) jsonl jsonl格式:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。 带人设单轮
{"system": "你是一位机制幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
带人设多轮
{"system": "你是一位机制幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"} 从OBS导入:单个文件大小不限制,文件数量不限制。 父主题: 数据集格式要求
-
姿态估计标注json文件说明 该说明适用于表1中的姿态估计标注文件格式。 姿态估计标注基于开源coco人物关键点标注格式对数据集进行标注,需包含annotations,train,val文件夹。annotations文件夹下用train.json和val.json记录训练集和验证集标注,train和val文件夹下保存具体的图片,示例如下所示: ├─annotations
│ train.json
│ val.json
├─train
│ IMG_20180919_114745.jpg
├─val
│ IMG_20180919_114945.jpg 具体的json标注文件具体示例: {
"images": [
{
"license": 2,
"file_name": "000000000139.jpg",
"coco_url": "",
"height": 426,
"width": 640,
"date_captured": "2013-11-21 01:34:01",
"flickr_url": "",
"id": 139
}
],
"annotations": [
{
"num_keypoints": 15,
"area": 2913.1104,
"iscrowd": 0,
"keypoints": [
427,
170,
1,
429,
169,
2,
0,
0,
0,
434,
168,
2,
0,
0,
0,
441,
177,
2,
446,
177,
2,
437,
200,
2,
430,
206,
2,
430,
220,
2,
420,
215,
2,
445,
226,
2,
452,
223,
2,
447,
260,
2,
454,
257,
2,
455,
290,
2,
459,
286,
2
],
"image_id": 139,
"bbox": [
412.8,
157.61,
53.05,
138.01
],
"category_id": 1,
"id": 230831
},
],
"categories": [
{
"supercategory": "person",
"id": 1,
"name": "person",
"keypoints": [
"nose",
"left_eye",
"right_eye",
"left_ear",
"right_ear",
"left_shoulder",
"right_shoulder",
"left_elbow",
"right_elbow",
"left_wrist",
"right_wrist",
"left_hip",
"right_hip",
"left_knee",
"right_knee",
"left_ankle",
"right_ankle"
],
"skeleton": [
[
16,
14
],
[
14,
12
],
[
17,
15
],
[
15,
13
],
[
12,
13
],
[
6,
12
],
[
7,
13
],
[
6,
7
],
[
6,
8
],
[
7,
9
],
[
8,
10
],
[
9,
11
],
[
2,
3
],
[
1,
2
],
[
1,
3
],
[
2,
4
],
[
3,
5
],
[
4,
6
],
[
5,
7
]
]
}
]
} 表4 COCO格式说明 字段 是否必选 说明 images 是 图片信息。 license 否 图像的许可证标识符。 file_name 是 图像的文件名。 coco_url 否 图像在COCO官方数据集中的URL。 height 是 图像的高度,以像素为单位。 width 是 图像的宽度,以像素为单位。 date_captured 否 图像捕获的日期和时间。 flickr_url 否 图像在Flickr网站上的URL。 id 是 图像的唯一标识符。 annotations 是 标注信息。 num_keypoints 是 标注的关键点数量。 area 是 边界框的面积,以像素平方为单位。 iscrowd 是 表示标注是否为复杂的群体场景(如拥挤的人群)。0表示不是拥挤场景,1表示是拥挤场景。 keypoints 是 标注的关键点坐标及其可见性,按顺序列出所有关键点,每个关键点用三个数值表示 [x, y, v]。x和y是关键点的像素坐标,v是可见性(0:不可见且不在图像中;1:不可见但在图像中;2:可见且在图像中)。 image_id 是 与该标注相关联的图像的ID,必须与images字段中的id对应。 bbox 是 目标物体的边界框,用[x, y, width, height]表示,其中,x,y是边界框左上角的坐标,width和height是边界框的宽度和高度。 category_id 是 标注类别的ID,对于人体姿态估计,通常为1(表示person)。 id 是 标注的唯一标识符。 categories 是 标注类型信息。 supercategory 是 类别的上级分类,通常为person。 id 是 类别的唯一标识符,对于人体姿态估计,通常为1。 name 是 类别的名称,通常为person。 keypoints 是 关键点的名称列表,COCO格式中通常定义了17个关键点,如nose、left_eye、right_eye、left_ear、right_ear、left_shoulder、right_shoulder、left_elbow、right_elbow、left_wrist、right_wrist、left_hip、right_hip、left_knee、right_knee、left_ankle、right_ankle。 skeleton 是 定义骨架连接的列表,用于表示关键点之间的连接关系。每个连接用一对关键点索引表示,如 [1, 2],表示鼻子(nose)到左眼(left_eye)的连线。
-
异常检测数据集标注文件说明 该说明适用于表1中的异常检测标注文件格式。 要求用户将标注文件和图片存于同一文件夹,正常和异常分文件夹创建。 当目录下存在对应的txt文件时,以txt文件内容作为正常或异常的标签。 示例如下所示,import-dir-1和import-dir-2为导入子目录。 dataset-import-example
├─abnormal
│ IMG_20180919_114732.jpg
│ IMG_20180919_114732.txt
│ IMG_20180919_114745.jpg
│ IMG_20180919_114745.txt
└─normal
│ IMG_20180919_114945.jpg
│ IMG_20180919_114945.txt
│ IMG_20180919_114949.jpg
│ IMG_20180919_114949.txt 异常标签的标签文件示例,如IMG_20180919_114732.txt文件内容如下所示。 abnormal 正常标签的标签文件示例,如IMG_20180919_114945.txt文件内容如下所示。 normal