对象存储服务 OBS-迁移HDFS数据至OBS:Distcp方式迁移
Distcp方式迁移
Hadoop Distcp(Distributed copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。
配置指南
参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法,完成OBS相关配置。
使用示例
- 以迁移HDFS上的“/data/sample”目录为例,执行以下命令查看HDFS文件系统上此目录下的文件与目录。
hadoop fs -ls hdfs:///data/sample
- 执行以下命令,将HDFS文件系统上“/data/sample”目录下所有文件与目录迁移到OBS桶“obs-bigdata-posix-bucket”的“data/sample”目录下。
hadoop distcp hdfs:///data/sample obs://obs-bigdata-posix-bucket/data/sample
- 执行以下命令,查看拷贝的文件。
hadoop fs -ls obs://obs-bigdata-posix-bucket/data/sample