盘古大模型 PANGULARGEMODELS-构建微调训练任务数据集:获取源数据
获取源数据
科学计算大模型微调训练所需的数据为气象再分析数据。
气象再分析数据集是利用现代数值天气预报模型和数据同化系统,对过去的观测数据进行重新处理后得到的。这些数据集可以是全球范围的,也可以是特定区域的。再分析数据集的目的是通过整合历史观测数据和现代计算技术,提供一个完整、统一且高质量的气象数据记录,用于研究和分析气候及天气变化。再分析数据一般含多种气象特征,如温度、湿度和海平面气压等。其中,每个特征包含时间、经度、纬度等多个维度,通常采用NetCDF(.nc)、GRIB(.grib)和GRIB2(.grib2)等格式、以网格形式存储。本案例推荐的公开数据集如下:
- Hycom公开数据集:
HYCOM再分析产品是美国海军研究实验室利用海军耦合海洋资料同化系统(Navy Coupled Ocean Data Assimilation, NCODA)将HYCOM模式和多源观测数据结合的产物,其公布的再分析产品时间跨度为1992—2012年,时间分辨率为1天,纬度范围是80.48°S ~80.48°N,空间水平分辨率为1/12°,垂直方向为不等距的40层。
Hycom数据集下载链接为:https://data.hycom.org/datasets/GLBv0.08/expt_53.X/data/,用户可直接根据文件名下载所需时间的nc文件数据,如图1。
对区域海洋模型进行微调时,推荐使用大于3个月的hycom数据。