数据湖探索 DLI 数据湖探索 DLI 提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持数据入湖、数据仓库、BI、AI融合等能力 提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持数据入湖、数据仓库、BI、AI融合等能力
搭配使用 数据湖探索 DLI 云数据迁移 CDM 消息日志类数据存储和查询 消息日志类数据存储和查询 CloudTable(HBase)满足消息或日志类数据的高速查询后展现或者返回到应用。适用于以下等场景:消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半
云存储网关 CSG 云存储网关 CSG 云存储网关(Cloud Storage Gateway)是一种混合云存储服务,可用于企业数据分级存储场景,用户数据中心的应用通过NFS文件协议访问网关,数据分级存储在网关本地缓存磁盘及对象存储。 云存储网关(Cloud Storage Ga
键值存储服务 KVS 键值存储服务 KVS 提供稳定时延、高可用、Serverless化、高效索引查询,旨在运行任何规模的高性能应用程序 提供稳定时延、高可用、Serverless化、高效索引查询,旨在运行任何规模的高性能应用程序 2024年4月30日~2025年4月29日公测 申请公测
EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本 搭配使用 AI开发平台ModelArts 云容器引擎 CCE 您可能感兴趣的产品 您可能感兴趣的产品 高性能弹性文件服务 SFS Turbo 提供按需扩展的高性能文件存储 AI开发平台ModelArts
实时流计算CS已与数据湖探索DLI进行了合并,同SPU资源下 数据湖探索DLI 价格下降30%,请前往体验> 进入DLI控制台 立即购买 [退市通知] 华为云实时流计算服务于2020年11月1日00:00:00(北京时间)退市,原有功能已合并到DLI [进入DLI] 数据湖探索DLI主页 [退市通知]
线上线下数据实时采集 数据传输 实时数据高并发、低延时、高可靠传输 实时数据高并发、低延时、高可靠传输 数据流动 提供多种connector,对接云上数据存储、计算、分析等多种服务,实现用户数据自由流动 提供多种connector,对接云上数据存储、计算、分析等多种服务,实现用户数据自由流动
配,外接触控屏体验书写协作的畅快 联接时空 改变未来 CloudLink Board CloudLink Bar CloudLink Box CloudLink Board CloudLink Bar CloudLink Box 购买咨询热线: 4000-955-988或950808按1转1
支持全局事务、存储过程、数据强一致性保证 库仓一体 逻辑集群,支持一套集群容纳数据集市、数据仓库 搭配使用 数据接入服务 DIS 云数据迁移 CDM 数据湖治理中心 DataArts Studio 一站式BI解决方案 一站式BI解决方案 企业积累的海量数据及各种数据资产,体量庞大
51CloudLink(弹性混合云专线),基于锐速全球骨干传输网,连接企业与大规模公有云,为客户提供的高速专线服务。1、用于搭建企业自有计算环境到公有云用户计算环境的高速、稳定、安全的专属通道。用户可使用专线接入服务将本地数据中心的计算机与云上的云服务器或托管主机实现私网相连,充
数据在线备份与存储系统是新一代智能备份到云备份,从存储到共享的全方位数据保护产品,并提供了统一的数据安全管理平台。数据在线备份与存储系统数据在线备份与存储系统是一款集备份与存储一体化产品,有效的解决中小企业数据管理的难题。为企业提供低投入、易使用、安全可靠的数据资产集中保护方案。
专业运维过保的老旧型号存储服务器,帮助客户节约存储维保成本。 专业实施部署各种存储服务器或存储系统,帮助客户提升项目或日常运维效率。 专业处理存储系统疑难杂症,和虚拟化、云平台、宿主机、客户机等关联问题处理。提供各梯队品牌的存储服务器、存储系统运维服务,对老旧型号的存储系统做延保技术支
蓝光数据存储备份服务是面向政企、行业客户提供低成本、高可靠、长周期且易访问的冷数据存储和备份产品。基于大容量蓝光存储技术,适用于海量、访问频次低的非结构化数据长期存储、管理和备份。蓝光数据存储备份服务是面向政企、行业客户提供低成本、高可靠、长周期且易访问的冷数据存储和备份产品。基
基于主流开源云存储套件定制开发,一站解决数据存储和共享,插件功能强大,灵活可扩展且安全可靠的自托管云存储和协作平台,适用于个人用户、企业和组织。用户可以在自己的服务器上搭建和管理文件存储和共享服务,用户可以完全掌控自己的数据。提供了跨平台的文件同步功能,可以将文件同步到不同设备上
蓝光存储配套服务是蓝光数据存储备份服务的配套服务,包括离线数据迁移服务、在线数据迁移与技术支持服务、存储设备搬运服务、软硬件安装服务和数据取回服务。1.离线数据迁移服务离线数据迁移服务面向用户提供TB或PB级的海量数据离线迁移工具,有效降低用户成本的同时,提供稳定、快速的数据传输
德康容灾存储系统为用户提供了一种在快速容灾的同时,对业务数据进行实时备份的有效方法,从而保障了业务的连续性。应用介绍德康容灾存储系统采用最新的持续数据保护技术保障业务的连续性,达到最短的恢复时间和最小的数据丢失量(最小的RTO和RPO);具有操作系统备份,数据库备份,文件备份等功
本产品基于密码技术和分布式存储技术设计开发的高性能文件加密存储软件,支持服务集群和异地容灾备份,为用户重要文件数据提供专业级的安全存储服务,满足数据存储安全方面的合规性要求。格尔文件加密存储网关是一款基于密码技术和分布式存储技术进行设计开发的安全产品,可以有效解决党政军及企事业单位的敏感文件安全存储问题,满足“等保2
存储转发类业务是指利用存储转发机制为用户提供信息发送的业务包括语音信箱、电子邮件、传真存储转发等业务。 免费咨询专业客服 为您解决全部办理难题,牌照第二类增值电信业务 全国代办理 急速下证
安全性 图解对象存储服务 功能概览 免费的对象存储 免费的对象存储 华为云对象存储服务 华为云对象存储服务 对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。 对象存储服务(Object
AI训练加速存储 AI训练加速存储 华为云对象存储服务 OBS 华为云对象存储服务 OBS 对象存储服务(Object Storage Server, OBS)是一个基于对象的存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,使用时无需考虑容量限制,并且提供多种存储类型供选择,满足客户各类业务场景诉求。
华为云对象存储服务 OBS 新手入门必看 对象存储服务简介 对象存储服务产品优势 对象存储服务应用场景 常见问题汇总 产品咨询 计费相关 权限相关 桶和对象相关 安全性 图解对象存储服务 功能概览 免费试用 帮助文档 对象存储服务简介 对象存储服务产品优势 对象存储服务应用场景 产品咨询
一站式数据存储管理 一站式数据存储管理 对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。到目前为止,OBS支持4种存储类别:标准存储、低频访问存储、归档存储、深度归档存储(受限公
跨源连接的特点与用途 DLI支持原生Spark的跨源连接能力,并在其基础上进行了扩展,能够通过SQL语句、Spark作业或者Flink作业访问其他数据存储服务并导入、查询、分析处理其中的数据,数据湖探索跨源连接的功能是打通数据源之间的网络连接。 数据湖探索跨源连接的功能是打通数据源之间的网络
使用DLI进行电商实时业务数据分析 数据湖探索优势 支持SQL操作: DLI提供标准SQL接口,用户仅需使用SQL便可实现海量数据查询分析。SQL语法全兼容标准ANSI SQL 2003。 跨源分析: 支持多种数据格式,云上多种数据源、ECS自建数据库以及线下数据库,数据无需搬迁
OBS基因测序解决方案 华为云对象存储服务 华为云对象存储服务 OBS提供高并发、高可靠、低时延、低成本的海量存储系统,结合 华为云计算 服务可快速搭建高扩展性、低成本、高可用的基因测序平台。 OBS提供高并发、高可靠、低时延、低成本的海量存储系统,结合 华为云计算 服务可快速搭建高扩展性、低成本、高可用的基因测序平台。
DLI可以查询存储在OBS中的数据,本例介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 DLI可以查询存储在OBS中的数据,本例介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 创建并提交Spark SQL作业 使用DLI提交SQL作业查询RDS MySQL数据 本例以SQL作业
大数据存储管理 大数据存储管理 华为云对象存储服务 OBS 华为云对象存储服务 OBS 对象存储服务(Object Storage Server, OBS)是一个基于对象的存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,使用时无需考虑容量限制,并且提供多种存储类型供选择,满足客户各类业务场景诉求。
DLI数据怎么存储
功能描述
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。 DLI 可以从HBase中读取数据,用于过滤分析、数据转储等场景。
前提条件
注意事项
- 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。
- 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用 DEW 管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink Opensource SQL使用DEW管理访问凭据
- 创建HBase源表的列簇必须定义为ROW类型,字段名对应列簇名(column family),嵌套的字段名对应列限定符名(column qualifier)。
用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列,剩下的原子数据类型字段(比如,STRING, BIGINT)将被识别为HBase的rowkey,一张表中只能声明一个rowkey。rowkey字段的名字可以是任意的,如果是保留关键字,需要用反引号进行转义。
语法格式
create table hbaseSource ( attr_name attr_type (',' attr_name attr_type)* (',' watermark for rowtime_column_name as watermark-strategy_expression) ','PRIMARY KEY (attr_name, ...) NOT ENFORCED))with ( 'connector' = 'hbase-2.2', 'table-name' = '', 'zookeeper.quorum' = '');
参数说明
|
参数 |
是否必选 |
默认值 |
数据 |
说明 |
|---|---|---|---|---|
|
connector |
是 |
无 |
String |
指定使用的连接器,需配置为:hbase-2.2。 |
|
table-name |
是 |
无 |
String |
连接的HBase表名。 |
|
zookeeper.quorum |
是 |
无 |
String |
格式为:ZookeeperAddress:ZookeeperPort 以MRS Hbase集群为例,该参数的所使用Zookeeper的ip地址和端口号获取方式如下:
|
|
zookeeper.znode.parent |
否 |
/hbase |
String |
Zookeeper中的根目录,默认是/hbase。 |
|
null-string-literal |
否 |
无 |
String |
当字符串值为null时的存储形式,默认存成 "null" 字符串。 HBase的source的编解码将所有数据类型(除字符串外)将null值以空字节来存储。 |
|
krb_auth_name |
否 |
无 |
String |
DLI侧创建的Kerberos类型的跨源认证名称。 |
数据类型映射
HBase以字节数组存储所有数据,在读和写过程中要序列化和反序列化数据。
Flink的HBase连接器利用HBase(Hadoop) 的工具类org.apache.hadoop.hbase.util.Bytes进行字节数组和Flink数据类型转换。
Flink的HBase连接器将所有数据类型(除字符串外)null值编码成空字节。对于字符串类型,null值的字面值由null-string-literal选项值决定。
|
Flink数据类型 |
HBase转换 |
|---|---|
|
CHAR/VARCHAR/STRING |
byte[] toBytes(String s) String toString(byte[] b) |
|
BOOLEAN |
byte[] toBytes(boolean b) boolean toBoolean(byte[] b) |
|
BINARY/VARBINARY |
返回 byte[]。 |
|
DECIMAL |
byte[] toBytes(BigDecimal v) BigDecimal toBigDecimal(byte[] b) |
|
TINYINT |
new byte[] { val } bytes[0] // returns first and only byte from bytes |
|
SMALLINT |
byte[] toBytes(short val) short toShort(byte[] bytes) |
|
INT |
byte[] toBytes(int val) int toInt(byte[] bytes) |
|
BIGINT |
byte[] toBytes(long val) long toLong(byte[] bytes) |
|
FLOAT |
byte[] toBytes(float val) float toFloat(byte[] bytes) |
|
DOUBLE |
byte[] toBytes(double val) double toDouble(byte[] bytes) |
|
DATE |
从 1970-01-01 00:00:00 UTC 开始的天数,int 值。 |
|
TIME |
从 1970-01-01 00:00:00 UTC 开始天的毫秒数,int 值。 |
|
TIMESTAMP |
从 1970-01-01 00:00:00 UTC 开始的毫秒数,long 值。 |
|
ARRAY |
不支持 |
|
MAP/MULTISET |
不支持 |
|
ROW |
不支持 |
示例
该示例是从HBase数据源中读取数据,并写入到Print结果表中(该示例使用的HBase版本2.2.3):
- 参考增强型跨源连接,在DLI上根据HBase所在的虚拟 私有云 和子网创建相应的增强型跨源,并绑定所要使用的Flink作业队列。参考“修改主机信息”章节描述,在增强型跨源中增加MRS的主机信息。
- 设置HBase集群的安全组,添加入向规则使其对Flink作业队列网段放通。参考测试地址连通性根据HBase的地址测试队列连通性。如果能连通,则表示跨源已经绑定成功,否则表示未成功。
- 参考MRS HBase的使用,通过HBase shell在HBase中创建相应的表,表名为order,表中只有一个列簇detail。创建语句参考如下:
create 'order', {NAME => 'detail'} - 在HBase shell中执行下述命令,以插入一条数据:
put 'order', '202103241000000001', 'detail:order_channel','webShop'put 'order', '202103241000000001', 'detail:order_time','2021-03-24 10:00:00'put 'order', '202103241000000001', 'detail:pay_amount','100.00'put 'order', '202103241000000001', 'detail:real_pay','100.00'put 'order', '202103241000000001', 'detail:pay_time','2021-03-24 10:02:03'put 'order', '202103241000000001', 'detail:user_id','0001'put 'order', '202103241000000001', 'detail:user_name','Alice'put 'order', '202103241000000001', 'detail:area_id','330106'
- 参考创建Flink OpenSource作业,创建flink opensource sql作业,输入以下作业脚本,并提交运行。该作业脚本将HBase作为数据源,Print作为结果表。
注意:创建作业时,在作业编辑界面的“运行参数”处,“Flink版本”选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。如下脚本中的加粗参数请根据实际环境修改。
create table hbaseSource ( order_id string,--表示唯一的rowkey detail Row( --detail表示列簇 order_channel string, order_time string, pay_amount string, real_pay string, pay_time string, user_id string, user_name string, area_id string), primary key (order_id) not enforced) with ( 'connector' = 'hbase-2.2', 'table-name' = 'order', 'zookeeper.quorum' = 'ZookeeperAddress:ZookeeperPort') ;create table printSink ( order_id string, order_channel string, order_time string, pay_amount string, real_pay string, pay_time string, user_id string, user_name string, area_id string) with ( 'connector' = 'print');insert into printSink select order_id, detail.order_channel,detail.order_time,detail.pay_amount,detail.real_pay,detail.pay_time,detail.user_id,detail.user_name,detail.area_id from hbaseSource;
- 按照如下方式查看taskmanager.out文件中的数据结果:
- 登录DLI管理控制台,选择“作业管理 > Flink作业”。
- 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。
- 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。
数据结果参考如下:
+I(202103241000000001,webShop,2021-03-24 10:00:00,100.00,100.00,2021-03-24 10:02:03,0001,Alice,330106)
常见问题
- Q:Flink作业运行失败,作业运行日志中如下报错信息,应该怎么解决?
java.lang.IllegalArgumentException: offset (0) + length (8) exceed the capacity of the array: 6
A:如果HBase表中的数据是以其他方式导入的话,那么其存储是以String格式存储的,所以使用其他的数据格式将会报该错误。需要将Flink创建HBase源表中非string类型的字段的字段类型重新改为String即可。
- Q:Flink作业运行失败,作业运行日志中如下报错信息,应该怎么解决?
org.apache.zookeeper.ClientCnxn$SessionTimeoutException: Client session timed out, have not heard from server in 90069ms for connection id 0x0
A:跨源未绑定或未绑定成功,或是HBase集群安全组未配置放通DLI队列的网段地址。参考增强型跨源连接重新配置跨源,或者HBase集群安全组放通DLI队列的网段地址。
DLI数据怎么存储常见问题
更多常见问题 >>-
数据湖探索DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。
-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
-
华为云对象存储服务OBS针对桶和对象提供了标准存储、低频访问存储、归档存储、深度归档存储(受限公测中)四种存储类别,满足不同场景下客户对存储性能和成本的不同诉求。
-
提供安全稳定、性能领先、无限弹性扩展的存储能力,降低使用成本,驱动千行百业数据价值变现
-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。
-
DLI服务适用于海量日志分析、异构数据源联邦分析、大数据ETL处理。
更多相关专题
增值电信业务经营许可证:B1.B2-20200593 | 域名注册服务机构许可:黔D3-20230001 | 代理域名注册服务机构:新网、西数