云服务器内容精选

  • 日志级别 HDFS中提供了如表2所示的日志级别,日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统调试信息。 如果您需要修改日志级别,请执行如下操作: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面。 左边菜单栏中选择所需修改的角色所对应的日志菜单。 选择所需修改的日志级别。 保存配置,在弹出窗口中单击“确定”使配置生效。 配置完成后立即生效,不需要重启服务。
  • 日志级别 HDFS中提供了如表2所示的日志级别,日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统调试信息。 如果您需要修改日志级别,请执行如下操作: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面。 左边菜单栏中选择所需修改的角色所对应的日志菜单。 选择所需修改的日志级别。 保存配置,在弹出窗口中单击“确定”使配置生效。 配置完成后立即生效,不需要重启服务。
  • 当使用distcp命令时,如果某些被拷贝的文件内容较大时如何处理 当使用distcp命令时,如果某些被拷贝的文件内容较大时,建议修改执行拷贝任务的mapreduce的超时时间。可以通过在distcp命令中指定mapreduce.task.timeout选项实现。例如,修改超时时间为30分钟,则命令如下: hadoop distcp -Dmapreduce.task.timeout=1800000 hdfs://cluster1/source hdfs://cluster2/target 您也可以使用选项filters,不对这种大文件进行拷贝,命令示例如下: hadoop distcp -filters /opt/client/filterfile hdfs://cluster1/source hdfs://cluster2/target 其中filterfile是本地文件,它的内容是多条用于匹配不拷贝文件路径的正则表达式,它的内容示例如下: .*excludeFile1.* .*excludeFile2.*
  • 使用dynamic策略执行distcp命令时,报错“Too many chunks created with splitRatio” 使用dynamic策略执行distcp命令时,命令异常退出,报“Too many chunks created with splitRatio”的错误。 这个问题的原因是“distcp.dynamic.max.chunks.tolerable”的值(默认值为20000)小于“distcp.dynamic.split.ratio”的值(默认为2)乘以Map数。即一般出现在Map数超过10000的情况。可以通过-m参数降低Map数小于10000: hadoop distcp -strategy dynamic -m 9500 hdfs://cluster1/source hdfs://cluster2/target 或通过-D参数指定更大的“distcp.dynamic.max.chunks.tolerable”的值: hadoop distcp -Ddistcp.dynamic.max.chunks.tolerable=30000 -strategy dynamic hdfs://cluster1/source hdfs://cluster2/target
  • 相关文档 如果使用distcp命令拷贝空文件夹报错,请参见使用distcp命令拷贝空文件夹报错。 如果使用distcp命令在安全集群上执行失败并发生异常,请参见执行distcp命令报错如何处理。 执行distcp跨集群拷贝文件时,出现部分文件拷贝失败并报错“ Source and target differ in block-size. Use -pb to preserve block-sizes during copy. ”,请参见执行distcp跨集群拷贝文件报错“Source and target differ in block-size”。 更多使用distcp命令时常见问题如下:
  • 操作步骤 登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行distcp命令的用户所属的用户组必须为supergroup组,且执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 执行distcp命令。例如: hadoop distcp hdfs://hacluster/source hdfs://hacluster/target
  • update和overwrite选项用法说明 -update:用于被拷贝的文件在目标位置中不存在,或者更新目标位置中被拷贝文件的内容。 在使用update选项的情况下,如果被拷贝文件在目标位置中已经存在,但文件内容不同,则目标位置的文件内容会被更新。 -overwrite:用于覆盖在目标位置中已经存在的文件。 在使用overwrite选项的情况下,如果被拷贝文件在目标位置中已经存在,目标位置的文件依然会被覆盖。 如果多个源位置有相同名称的文件,则distcp命令会失败。 在不使用update和overwrite选项的情况下,如果被拷贝文件在目标位置中已经存在,则该文件会跳过。 不加选项和加两个选项中任一个选项的区别,示例如下: 假设,源位置的文件结构如下: hdfs://cluster1/source/first/1 hdfs://cluster1/source/first/2 hdfs://cluster1/source/second/10 hdfs://cluster1/source/second/20 不加选项的命令: hadoop distcp hdfs://cluster1/source/first hdfs://cluster1/source/second hdfs://cluster2/target 上述命令默认会在目标位置创建文件夹first、second,所以拷贝结果如下: hdfs://cluster2/target/first/1 hdfs://cluster2/target/first/2 hdfs://cluster2/target/second/10 hdfs://cluster2/target/second/20 加两个选项中任一个选项的命令,例如加update选项: hadoop distcp -update hdfs://cluster1/source/first hdfs://cluster1/source/second hdfs://cluster2/target 上述命令只会将源位置的内容拷贝到目标位置,所以拷贝结果如下: hdfs://cluster2/target/1 hdfs://cluster2/target/2 hdfs://cluster2/target/10 hdfs://cluster2/target/20
  • 当使用distcp命令时,如果某些被拷贝的文件内容较大时如何处理 当使用distcp命令时,如果某些被拷贝的文件内容较大时,建议修改执行拷贝任务的mapreduce的超时时间。可以通过在distcp命令中指定mapreduce.task.timeout选项实现。例如,修改超时时间为30分钟,则命令如下: hadoop distcp -Dmapreduce.task.timeout=1800000 hdfs://cluster1/source hdfs://cluster2/target 您也可以使用选项filters,不对这种大文件进行拷贝,命令示例如下: hadoop distcp -filters /opt/client/filterfile hdfs://cluster1/source hdfs://cluster2/target 其中filterfile是本地文件,它的内容是多条用于匹配不拷贝文件路径的正则表达式,它的内容示例如下: .*excludeFile1.* .*excludeFile2.*
  • 使用dynamic策略执行distcp命令时,报错“Too many chunks created with splitRatio” 使用dynamic策略执行distcp命令时,命令异常退出,报“Too many chunks created with splitRatio”的错误。 这个问题的原因是“distcp.dynamic.max.chunks.tolerable”的值(默认值为20000)小于“distcp.dynamic.split.ratio”的值(默认为2)乘以Map数。即一般出现在Map数超过10000的情况。可以通过-m参数降低Map数小于10000: hadoop distcp -strategy dynamic -m 9500 hdfs://cluster1/source hdfs://cluster2/target 或通过-D参数指定更大的“distcp.dynamic.max.chunks.tolerable”的值: hadoop distcp -Ddistcp.dynamic.max.chunks.tolerable=30000 -strategy dynamic hdfs://cluster1/source hdfs://cluster2/target
  • update和overwrite选项用法说明 -update:用于被拷贝的文件在目标位置中不存在,或者更新目标位置中被拷贝文件的内容。 在使用update选项的情况下,如果被拷贝文件在目标位置中已经存在,但文件内容不同,则目标位置的文件内容会被更新。 -overwrite:用于覆盖在目标位置中已经存在的文件。 在使用overwrite选项的情况下,如果被拷贝文件在目标位置中已经存在,目标位置的文件依然会被覆盖。 如果多个源位置有相同名称的文件,则distcp命令会失败。 在不使用update和overwrite选项的情况下,如果被拷贝文件在目标位置中已经存在,则该文件会跳过。 不加选项和加两个选项中任一个选项的区别,示例如下: 假设,源位置的文件结构如下: hdfs://cluster1/source/first/1 hdfs://cluster1/source/first/2 hdfs://cluster1/source/second/10 hdfs://cluster1/source/second/20 不加选项的命令: hadoop distcp hdfs://cluster1/source/first hdfs://cluster1/source/second hdfs://cluster2/target 上述命令默认会在目标位置创建文件夹first、second,所以拷贝结果如下: hdfs://cluster2/target/first/1 hdfs://cluster2/target/first/2 hdfs://cluster2/target/second/10 hdfs://cluster2/target/second/20 加两个选项中任一个选项的命令,例如加update选项: hadoop distcp -update hdfs://cluster1/source/first hdfs://cluster1/source/second hdfs://cluster2/target 上述命令只会将源位置的内容拷贝到目标位置,所以拷贝结果如下: hdfs://cluster2/target/1 hdfs://cluster2/target/2 hdfs://cluster2/target/10 hdfs://cluster2/target/20
  • 相关文档 如果使用distcp命令拷贝空文件夹报错,请参见使用distcp命令拷贝空文件夹报错。 如果使用distcp命令在安全集群上执行失败并发生异常,请参见执行distcp命令报错如何处理。 执行distcp跨集群拷贝文件时,出现部分文件拷贝失败并报错“ Source and target differ in block-size. Use -pb to preserve block-sizes during copy. ”,请参见执行distcp跨集群拷贝文件报错“Source and target differ in block-size”。 更多使用distcp命令时常见问题如下:
  • 操作步骤 登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行distcp命令的用户所属的用户组必须为supergroup组,且执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 执行distcp命令。例如: hadoop distcp hdfs://hacluster/source hdfs://hacluster/target
  • 操作场景 HDFS DataNode以Block的形式,保存用户的文件和目录,同时在NameNode中生成一个文件对象,对应DataNode中每个文件、目录和Block。 NameNode文件对象需要占用一定的内存,消耗内存大小随文件对象的生成而线性递增。DataNode实际保存的文件和目录越多,NameNode文件对象总量增加,需要消耗更多的内存,使集群现有硬件可能会难以满足业务需求,且导致集群难以扩展。 规划存储大量文件的HDFS系统容量,就是规划NameNode的容量规格和DataNode的容量规格,并根据容量设置参数。 配置期间需查看ID为14007、14008、14009的告警是否产生,如果有,请根据业务需要修改告警阈值。
  • 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 dfs.namenode.delegation.token.max-lifetime 该参数为服务器端参数,设置Token的最大存活时间,单位为毫秒。取值范围:10000~10000000000000。 604800000 dfs.namenode.delegation.token.renew-interval 该参数为服务器端参数,设置Token renew的时间间隔,单位为毫秒。取值范围:10000~10000000000000。 86400000