云服务器内容精选

  • 什么是数据血缘关系? 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征: 归属性:一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 图1 数据血缘关系示例 父主题: 数据目录
  • 基础概念 Internal Catalog Doris原有的Database和Table都将归属于Internal Catalog。Internal Catalog是内置的默认Catalog,用户不可修改或删除。 External Catalog 可以通过CREATE CATALOG命令创建一个External Catalog。创建后,可以通过SHOW CATALOGS命令查看已创建的Catalog。 切换Catalog 用户登录Doris后,默认进入Internal Catalog,因此默认的使用和之前版本并无差别,可以直接使用SHOW DATABASES,USE DB等命令查看和切换数据库。 用户可以通过SWITCH命令切换Catalog。如: SWITCH internal; SWITCH hive_catalog; 切换后,可以直接通过SHOW DATABASES,USE DB等命令查看和切换对应Catalog中的Database。Doris会自动通过Catalog中的Database和Table。用户可以像使用Internal Catalog一样,对External Catalog中的数据进行查看和访问。 当前,Doris只支持对 External Catalog中的数据进行只读访问。 删除Catalog External Catalog中的Database和Table都是只读的。但是可以删除Catalog(Internal Catalog无法删除)。可以通过DROP CATALOG命令删除一个External Catalog。 该操作仅会删除Doris中该Catalog的映射信息,并不会修改或变更任何外部数据目录的内容。 Resource Resource是一组配置的集合。用户可以通过CREATE RESOURCE命令创建一个Resource。之后可以在创建Catalog时使用这个Resource。 一个Resource可以被多个Catalog使用,以复用其中的配置。
  • 合约消息 在接收交换资源完成后,还可针对已生效的合约进行合约消息会话。 进入交换数据空间控制台界面,单击“我的空间”,在交换数据空间实例中,选择实例,单击实例卡片上的“连接器”。 单击实例下的连接器,选择界面左侧导航栏中的“数据目录”,选择“收到的数据”,进入“收到的数据”界面。 单击已生效合约对应的“消息”,在弹出的“消息”页签中输入留言的内容,单击“提交消息”,即可在该合约上发起消息会话。 留言成功后,除创建消息的用户外,合约相关用户在合约对应“操作”列的“消息”都会看到红点新消息提示,并可对此留言进行回复。 已生效的合约支持评论消息相关操作。 已终止合约会删除消息会话,无法查看。 失效的合约只可以查看评论消息,不可新增、删除。 其余状态下的合约均不支持评论消息会话新增、删除。 可查看合约的用户都可以查看合约中的所有评论消息,可以新增评论以及删除自己创建的评论消息。
  • 接收交换资源 登录交换数据空间官网。 单击“管理控制台”,进入交换数据空间控制台界面。 单击“我的空间”,在交换数据空间实例中,选择实例,单击实例卡片上的“连接器”。 单击实例下的连接器,选择界面左侧导航栏中的“数据目录”,选择“收到的数据”,进入“收到的数据”界面。 选择“未读”页签,根据合约名称进行搜索,搜索到未接收的数据。 单击资源文件“操作”列的“归档”。 选择指定路径,单击“确认”。 “收到的数据”尾部显示的数字表示已经收到但未查看的数据数量。
  • 资源交换流程 资源交换流程如图1所示,各阶段说明如表2所示。 图1 资源交换流程说明 表2 资源交换流程说明 资源交换类型 阶段 说明 角色 点对点交换 新增资源 用户通过新增资源将本地数据资源上传到EDS平台,方便在EDS平台完成数据交换。 数据提供方 点对点交换 数据提供方将资源一对一发送给数据消费方,一次可以发送多份数据资源。 审批资源 数据提供方审批人在“工作台”的“我的待办”中,审批该资源是否提供给数据消费方。 接收交换资源 数据消费方对接收到的资源进行处理。 数据消费方 数据市场交换 新增资源 用户通过新增资源将本地数据资源上传到EDS平台,方便在EDS平台完成数据交换。 数据提供方 上架offer 数据提供方提交将资源上架到数据市场的offer申请。 审批offer 数据提供方审批人在“工作台”的“我的待办”中,审批该offer申请。 在数据市场订阅offer 数据消费方在数据市场中订阅已上架的offer。 数据消费方 (可选)审批offer 数据提供方审批人在“工作台”的“我的待办”中,审批数据消费方的offer订阅申请。 数据提供方 使用资源 数据提供方审批offer完成后,数据消费方可以使用该资源。 数据消费方 交换数据资源只可以在同一个空间实例下进行,不支持跨实例交换数据资源。
  • 合约消息 进入交换数据空间控制台界面,单击“我的空间”,在交换数据空间实例中,选择实例,单击实例卡片上的“连接器”。 单击实例下的连接器,选择界面左侧导航栏中的“数据目录”,选择“发出的数据”,进入“发出的数据”界面。 单击已生效合约对应的“消息”,在弹出的“消息”页签中输入留言的内容,单击“提交消息”,即可在该合约上发起消息会话。 留言成功后,除创建消息的用户外,合约相关用户在合约对应“操作”列的“消息”都会看到红点新消息提示,并可对此留言进行回复。 已生效的合约支持评论消息相关操作。 已终止合约会删除消息会话,无法查看。 失效的合约只可以查看评论消息,不可新增、删除。 其余状态下的合约均不支持评论消息会话新增、删除。 可查看合约的用户都可以查看合约中的所有评论消息,可以新增评论以及删除自己创建的评论消息。
  • 元数据缓存设置 创建Catalog时可以采用参数file.meta.cache.ttl-second来设置Hive分区文件缓存自动失效时间,也可以将该值设置为0来禁用分区文件缓存,时间单位为:秒。示例如下: CREATE CATALOG hive_catalog PROPERTIES ( 'type'='hms', 'hive.metastore.uris' = 'thrift://127.x.x.x:port', 'AWS_ACCESS_KEY' = 'ak', 'AWS_SECRET_KEY' = 'sk', 'AWS_ENDPOINT' = 'obs.cn-north-4.myhuaweicloud.com', 'AWS_REGION' = 'cn-north-4', 'file.meta.cache.ttl-second' = '60', 'yarn.resourcemanager.address' = '192.X.X.X:port', 'yarn.resourcemanager.principal' = 'mapred/hadoop.hadoop.com@HADOOP.COM' );
  • 创建hive catalog 通过连接Hive Metastore,或者兼容Hive Metastore的元数据服务,Doris可以自动获取Hive的库表信息,并进行数据查询。 除了Hive外,很多其他系统也会使用Hive Metastore存储元数据。所以通过Hive Catalog,我们不仅能访问Hive,也能访问使用Hive Metastore作为元数据存储的系统。 创建。 Hive On OBS CREATE CATALOG hive_catalog PROPERTIES ( 'type'='hms', 'hive.metastore.uris' = 'thrift://127.x.x.x:port', 'AWS_ACCESS_KEY' = 'ak', 'AWS_SECRET_KEY' = 'sk', 'AWS_ENDPOINT' = 'obs.cn-north-4.myhuaweicloud.com', 'AWS_REGION' = 'cn-north-4', 'yarn.resourcemanager.address' = '192.X.X.X:port', 'yarn.resourcemanager.principal' = 'mapred/hadoop.hadoop.com@HADOOP.COM' ); Hive On HDFS CREATE CATALOG hive_catalog PROPERTIES ( 'type'='hms', 'hive.metastore.uris' = 'thrift://127.x.x.x:port', 'dfs.nameservices'='hacluster', 'dfs.ha.namenodes.hacluster'='3,4', 'dfs.namenode.rpc-address.hacluster.3'='192.x.x.x:port', 'dfs.namenode.rpc-address.hacluster.4'='192.x.x.x:port', 'dfs.client.failover.proxy.provider.hacluster'='org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider', 'yarn.resourcemanager.address' = '192.X.X.X:port', 'yarn.resourcemanager.principal' = 'mapred/hadoop.hadoop.com@HADOOP.COM' ); 创建后查询: select * from hive_catalog.DB.test_table;
  • Hive版本 Doris可以正确访问不同Hive版本中的Hive Metastore。在默认情况下,Doris会以Hive2.3版本的兼容接口访问Hive Metastore。你也可以在创建Catalog时指定hive的版本。如访问Hive1.1.0版本: CREATE CATALOG hive_catalog PROPERTIES ( 'type'='hms', 'hive.metastore.uris' = 'thrift://127.x.x.x:port', 'AWS_ACCESS_KEY' = 'ak', 'AWS_SECRET_KEY' = 'sk', 'AWS_ENDPOINT' = 'obs.cn-north-4.myhuaweicloud.com', 'AWS_REGION' = 'cn-north-4', 'hive.version' = '1.1.0', 'yarn.resourcemanager.address' = '192.X.X.X:port', 'yarn.resourcemanager.principal' = 'mapred/hadoop.hadoop.com@HADOOP.COM' );