对象存储服务 OBS-迁移HDFS数据至OBS:Distcp方式迁移

时间:2025-03-26 15:28:27

Distcp方式迁移

Hadoop Distcp(Distributed copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。

配置指南

参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法,完成OBS相关配置。

使用示例

  1. 以迁移HDFS上的“/data/sample”目录为例,执行以下命令查看HDFS文件系统上此目录下的文件与目录。

    hadoop fs -ls hdfs:///data/sample

  2. 执行以下命令,将HDFS文件系统上“/data/sample”目录下所有文件与目录迁移到OBS桶“obs-bigdata-posix-bucket”的“data/sample”目录下。

    hadoop distcp hdfs:///data/sample obs://obs-bigdata-posix-bucket/data/sample

  3. 执行以下命令,查看拷贝的文件。

    hadoop fs -ls obs://obs-bigdata-posix-bucket/data/sample

support.huaweicloud.com/bestpractice-obs/obs_05_1522.html
提示

您即将访问非华为云网站,请注意账号财产安全