检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 语法格式 1 2 3 4 5 6 7 8 9 10 11 12 13 create table dwsSource ( attr_name attr_type
'random', --为字段user_id指定random生成器 'fields.user_id.length' = '3' --限制user_id长度为3 ); CREATE TABLE jdbcSink ( user_id string, amount int
nname=ap-southeast-2;enginetype=trino;catalog=lfcatalog 详细参数说明请参考表3和表4。 表3 驱动连接配置信息参数说明 参数 说明 获取方式 endPoint 地区与终端节点,即云服务在不同Region有不同的访问域名。 获取AK/SK
TPC-D(由 TPC 组织于 1994 年制定的标准,用于决策支持系统方面的测试基准)发展而来的。TPC-H用3NF实现了一个数据仓库,共包含8个基本关系,其数据量可以设定从1G~3T不等。TPC-H 基准测试包括 22 个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间。TPC-H
('330106', 'a1', 'b1', 'c2', 'd2', 'e1'), ('330108', 'a1', 'b1', 'c3', 'd3', 'e1'), ('330110', 'a1', 'b1', 'c4', 'd4', 'e1'); 创建flink opensource
('330106', 'a1', 'b1', 'c2', 'd2', 'e1'), ('330108', 'a1', 'b1', 'c3', 'd3', 'e1'), ('330110', 'a1', 'b1', 'c4', 'd4', 'e1'); 创建flink opensource
执行以下命令配置环境变量。 source bigdata_env 因为当前集群启用了Kerberos认证,则需要执行以下命令进行安全认证。认证用户为3中创建的用户。 kinit 3中创建的用户名 例如,kinit hivetestusr 执行以下命令连接Hive。 beeline 创建表和插入表数据。 创建表:
例如,新加坡区域的endpoint为ap-southeast-3.myhuaweicloud.com 拼接后的基础镜像地址为:swr.ap-southeast-3.myhuaweicloud.com/atelier/pyspark_3_1_1:develop-remote-pyspark_3
会造成查询失败。 如果创建表和创建视图使用的计算引擎不一致,可能会因为varchar类型不兼容,导致视图查询失败。 例如:使用Spark 3.x版本创建的表,建议您使用Spark 2.x创建相应的视图。 示例 先通过对student表中的id和name数据进行查询,并以该查询结果创建视图student_view。
表2 请求参数说明 名称 是否必选 参数类型 说明 sql_ids 是 Array<String> 待删除的sql模板ID列表。 响应参数 表3 响应参数说明 名称 参数类型 说明 is_success Boolean 是否成功。 message String 系统提示信息,执行成功
println(SparkFiles.get("test")) spark.sparkContext.parallelize(Array(1,2,3,4)) // Executor 获取上传文件 .map(_ => println(SparkFiles.get("test")))
6)。 图2 创建目标表 查询源表数据,发现导致问题产生的记录ctr值为1675,整数位(4位)超出所定义的decimal精度(9 – 6 = 3位),导致double转decimal时overflow产生null值,而对应dws表字段为非空导致插入失败。 处理步骤 修改目的表所定义的decimal精度即可解决。
采用天级分区,平均的日增数据量是3GB,最多一天的日志是8GB,这个会采用Bucket桶数= 8GB/2GB = 4 来创建表;每天的更新数据占比较高,且主要分散到近一个月。这样会导致结果是,每天的数据会写入到全月的Bucket桶中,那就是4*30 = 120个桶。如果采用月分区,分区桶的个数= 3GB *
compress 否 String 导出作业时,用户指定的压缩方式。 tags 否 Array of objects 作业的标签。具体请参考表3。 表3 tags参数 参数名称 是否必选 参数类型 说明 key 是 String 标签的键。 value 是 String 标签的值。 请求示例
se_name}/tables/{table_name}/partitions?part=part2 请求消息 无请求参数。 响应消息 表3 响应参数 参数名称 是否必选 参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message
有效期结束时间(13位时间戳)。 activate 否 Boolean 当前设置的扩缩容计划是否激活,默认为“true”,表示激活。 响应消息 表3 响应参数 参数名称 是否必选 参数类型 说明 is_success 否 Boolean 请求执行是否成功。“true”表示请求执行成功。 message
个表中。 当使用目录作为source路径时,对目录中的文件进行 无序的读取。更多信息参考文件系统 SQL 连接器 语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE sink_table ( name string, num
购买队列的详细参数请参考创建队列。 步骤3:创建专属队列和VPC的增强型跨源连接 在DLI管理控制台左侧导航栏中,选择“跨源管理”。 选择“增强型跨源”页签,单击左上角的“创建”按钮。 输入连接名称,选择创建的弹性资源池/队列,虚拟私有云,子网,输入主机信息(可选)。 图3 创建增强型跨源连接 步骤4:购买弹性公网IP
景需要,设置不同级别的权限控制。当需要设置该服务下的所有资源时,可以不指定该字段。Resource定义请参考表3。Resource中的资源类型和资源路径请参考表4。 表3 Resource Resource 说明 DLI:*:*:table:databases.dbname.tables
性资源池”。 在“购买弹性资源池”界面,填写具体的弹性资源池参数。 本例在华东-上海二区域购买按需计费的弹性资源池。相关参数说明如表3所示。 表3 参数说明 参数名称 参数说明 配置样例 区域 选择弹性资源池所在区域。 华东-上海二 项目 每个区域默认对应一个项目,由系统预置。 系统默认项目