云服务器内容精选

  • 操作步骤 登录OBS Browser+。 在页面上区域单击“创建桶”。 在弹出的对象框中根据需要填写桶信息,如图1所示。 图1 创建桶 表1 创建桶 参数 说明 区域 选择新建桶所在的Region。桶创建成功后,不支持变更区域,请谨慎选择。 存储类别 桶的存储类别。不同的存储类别可以满足客户业务对存储性能、成本的不同诉求。 标准存储:适用于有大量热点文件或小文件,且需要频繁访问(平均一个月多次)并快速获取数据的业务场景。 低频访问存储:适用于不频繁访问(平均一年少于12次),但需要快速获取数据的业务场景。 归档存储:适用于很少访问(平均一年一次),且对数据获取速率要求不高的业务场景。 更多详情请参见存储类别。 桶ACL 桶的读写权限控制。 私有:除桶ACL授权外的其他用户无桶的访问权限。 公共读:任何用户都可以对桶内对象进行读操作。 公共读写:任何用户都可以对桶内对象进行读/写/删除操作。 多AZ 开启多AZ后,数据冗余存储至多个AZ中。 请根据业务情况提前规划是否开启多AZ功能,桶一旦创建成功,后续无法修改多AZ功能的启停状态。 桶名称 输入需要创建的桶的名称,“桶名称”需全局唯一。 3~63个字符,数字或字母开头,支持小写字母、数字、“-”、“.”。 禁止使用类IP地址。 禁止以“-”或“.”开头及结尾。 禁止两个“.”相邻(如:“my..bucket”)。 禁止“.”和“-”相邻(如:“my-.bucket”和“my.-bucket”)。 可以单击桶名输入框后的了解桶的命名规则详情,每个用户最多可在OBS 对象存储中创建100个桶。 由于通过URL访问桶时,桶名会作为URL的一部分,根据DNS标准,URL不支持大写字母,无法区分带大写字母的桶。因此,“桶名称”仅支持小写字母、数字、“-”、“.”作为桶的命名规则。例如:如果想通过URL访问名为“MyBucket”的桶,该URL将解析成名为“mybucket”的桶,导致访问出错。 DNS命名规范方便全局统一,方便在访问桶时对桶进行解析,可以使客户受益于新功能和优化性能,并支持对桶进行静态网站托管。 桶创建成功后,不能修改名称,创建时,请设置合适的桶名。 单击确认后,如果创建成功,会立即在桶列表中看到刚刚创建的桶。如果创建失败,会在界面上显示错误信息。
  • 背景信息 对象存储服务采用分块上传的模式上传数据,在下列情况下(但不仅限于此)通常会导致数据上传失败而产生垃圾数据,因此需要清理这些碎片数据来释放空间。 网络条件较差,与OBS 对象存储的服务器之间的连接经常断开。 上传过程中,人为中断上传任务。 设备故障。 突然断电等特殊情况。 碎片管理功能可以清除由于对象上传失败而产生的垃圾数据。 碎片删除后无法恢复,请确认所有多段上传任务都已经执行完毕,如果任务未执行完毕删除碎片可能导致该任务上传失败,请谨慎操作。
  • 快速配置常用参数 其他参数在安装集群时已进行了适配,以下参数需要根据使用场景进行调整。以下参数除特别指出外,一般在Spark2x客户端的“spark-defaults.conf”文件中配置。 表1 快速配置常用参数 配置项 说明 默认值 spark.sql.parquet.compression.codec 对于非分区parquet表,设置其存储文件的压缩格式。 在JDBCServer服务端的“spark-defaults.conf”配置文件中进行设置。 snappy spark.dynamicAllocation.enabled 是否使用动态资源调度,用于根据规模调整注册于该应用的executor的数量。目前仅在YARN模式下有效。 JDBCServer默认值为true,client默认值为false。 false spark.executor.memory 每个Executor进程使用的内存数量,与JVM内存设置字符串的格式相同(例如:512m,2g)。 4G spark.sql.autoBroadcastJoinThreshold 当进行join操作时,配置广播的最大值。 当SQL语句中涉及的表中相应字段的大小小于该值时,进行广播。 配置为-1时,将不进行广播。 10485760 spark.yarn.queue JDBCServer服务所在的Yarn队列。 在JDBCServer服务端的“spark-defaults.conf”配置文件中进行设置。 default spark.driver.memory 大集群下推荐配置32~64g驱动程序进程使用的内存数量,即SparkContext初始化的进程(例如:512m, 2g)。 4G spark.yarn.security.credentials.hbase.enabled 是否打开获取HBase token的功能。如果需要Spark-on-HBase功能,并且配置了安全集群,参数值设置为“true”。否则设置为“false”。 false spark.serializer 用于串行化将通过网络发送或需要缓存的对象的类以序列化形式展现。 Java序列化的默认值适用于任何Serializable Java对象,但运行速度相当慢,所以建议使用org.apache.spark.serializer.KryoSerializer并配置Kryo序列化。可以是org.apache.spark.serializer.Serializer的任何子类。 org.apache.spark.serializer.JavaSerializer spark.executor.cores 每个执行者使用的内核个数。 在独立模式和Mesos粗粒度模式下设置此参数。当有足够多的内核时,允许应用程序在同样的worker上执行多个执行程序;否则,在每个worker上,每个应用程序只能运行一个执行程序。 1 spark.shuffle.service.enabled NodeManager中一个长期运行的辅助服务,用于提升Shuffle计算性能。 fasle spark.sql.adaptive.enabled 是否开启自适应执行框架。 false spark.executor.memoryOverhead 每个执行器要分配的堆内存量(单位为兆字节)。 这是占用虚拟机开销的内存,类似于内部字符串,其他内置开销等等。会随着执行器大小(通常为6-10%)而增长。 1GB spark.streaming.kafka.direct.lifo 配置是否开启Kafka后进先出功能。 false
  • CU设置常见问题 当队列的CU总和等于弹性资源池最小CU时,即弹性资源池当前CU等于最小CU时,怎样修改弹性资源池内现有队列的CU最小值? 解决方案: 步骤一:通过调大现有队列的CU最大值,使弹性资源池当前CU大于等于目标最小CU(目标最小CU即计划调整后的队列最小CU值总和)。 如果弹性资源池最大CU等于最小CU,请先设置增大弹性资源池的最大CU值。 步骤二:设置弹性资源池的最小CU。 步骤三:调整弹性资源池内现有队列的最小CU。 当队列的CU总和等于弹性资源池最小CU时,即弹性资源池当前CU等于最小CU时,怎样在弹性资源池内添加队列? 解决方案: 步骤一:通过调大现有队列的CU最大值,使弹性资源池当前CU大于等于目标最小CU(目标最小CU即计划调整后的队列最小CU值总和)。 如果弹性资源池最大CU等于最小CU,请先设置增大弹性资源池的最大CU值。 步骤二:设置弹性资源池的最小CU。 步骤三:在资源池内新增队列。 步骤四:复原 ▪步骤一:通过调整现有队列的CU最大值,使弹性资...中调整的队列CU最大值。
  • pgAdmin备份恢复 备份数据库 在左侧结构树导航栏中,选择需要备份的数据库,单击右键选择“Backup”。 在弹出框的“General”页签,填写基本信息,选择要备份的路径、备份的格式,并输入备份文件的名称,单击“Backup”等待备份成功即可。 恢复数据库 在左侧结构树导航栏中,选择需要恢复的数据库,单击右键选择“Restore”。 在弹出框中选择备份好的文件,单击“Restore”进行恢复。
  • 场景说明 登录Spark客户端节点,执行如下命令: source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 使用spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。 用spark-submit提交命令: 运行Java样例程序: spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中:“/opt/example/hudi-java-examples-1.0.jar”为jar包路径,“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径,“ hoodie_java”为Hudi表的表名。 运行Scala样例程序: spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中:“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径,“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径,“ hoodie_Scala”为Hudi表的表名。 运行Python样例程序: spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中:“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径,“ hudi_trips_cow”为Hudi表的表名。 父主题: 使用Spark执行Hudi基本操作
  • 操作步骤 登录AppCube开发环境。 如图1所示,在开发环境首页的“项目”页签下,单击“行业应用”,进入到行业应用。 图1 进入行业应用 如图2所示,单击“创建行业应用”,弹出“创建行业应用”页面。 图2 创建行业应用 如图3所示,添加图标、设置标签、名称、分类和描述,具体参数说明请参见表1,单击“创建”,创建应用后,进入应用开发阶段,如图4所示。 图3 创建行业应用 表1 应用基本信息 参数 配置说明 示例 添加图标 为该应用设置图标。如果不设置,则使用默认图标。 单击“添加图标”,在弹出“图标选择”页面中选择图标。 使用默认图标 标签 应用中用于展示的文字,为了区分不同应用的描述信息,创建后可修改。 应用创建之后,应用标签可以在应用设置中修改。 demo 名称 应用在系统内的唯一标识,系统会自动在该名称前添加命名空间__,创建后不支持修改。 设置要求:必须以字母开头,没有连续的下划线,空格和特殊字符。 demo 说明: 应用创建后,应用名称自动添加命名空间前缀,例如:ISDP__demo。 分类 应用所属的分类。 设置分类后,工程列表和库列表都可以根据应用的分类进行筛选。 Others 描述 应用的描述信息。 智能排班示例 高级设置 展开“高级设置”时才会显示该参数。开发的资产包依赖所选择的运行时版本,若线下运行版本不一致,可能产生不兼容。 保持默认 图4 应用开发页面