数据分析-华为云

华为云FLEXUS云服务-概述:资源和成本规划

资源和成本规划资源资源配置说明云主机 CPU：2核内存：2GB Matomo应用镜像运行的最低配置为2核2GB，您可根据您的业务需求选择Flexus应用服务器L实例规格。镜像 Matomo 选择Matomo应用镜像。安全组入方向规则：协议/应用：TCP 端口：80、443 源地址：0.0.0.0/0 80：允许使用HTTP协议访问网站。 443：允许使用HTTPS协议访问网站。域名 wpwebsite.com 如果您仅为个人开发或测试使用，可以不添加域名。如果您的应用对外开放，请为云服务器添加并解析域名。

华为云FLEXUS云服务使用Matomo应用镜像进行网站数据分析

MAPREDUCE服务 MRS-基于Kafka的Word Count数据流统计案例:步骤1：创建MRS集群

步骤1：创建MRS集群创建并购买一个包含有Kafka组件的MRS集群，详情请参见购买自定义集群。本文以购买的MRS 3.1.0版本的集群为例，组件包含Hadoop、Kafka组件，集群未开启Kerberos认证。集群购买成功后，在MRS集群的任一节点内，安装集群客户端，具体操作可参考安装并使用集群客户端。例如客户端安装在主管理节点中，安装目录为“/opt/client”。客户端安装完成后，在客户端内创建“lib”目录，用于放置相关jar包。将安装客户端过程中解压的目录中Kafka相关jar包复制到“lib”目录。例如客户端软件包的下载路径为主管理节点的“/tmp/FusionInsight-Client”目录，执行以下命令： mkdir /opt/client/lib cd /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_ClientConfig scp Kafka/install_files/kafka/libs/* /opt/client/lib

MAPREDUCE服务 MRS 数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作场景

操作场景频繁的数据获取导致在存储目录中产生许多零碎的CarbonData文件。由于数据排序只在每次加载时进行，所以，索引也只在每次加载时执行。这意味着，对于每次加载都会产生一个索引，随着数据加载数量的增加，索引的数量也随之增加。由于每个索引只在一次加载时工作，索引的性能被降低。CarbonData提供加载压缩。压缩过程通过合并排序各segment中的数据，将多个segment合并为一个大的segment。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-合并CarbonData表Segments:操作描述

操作描述有Minor合并、Major合并和Custom合并三种类型。 Minor合并：在Minor合并中，用户可指定合并数据加载的数量。如果设置了参数“carbon.enable.auto.load.merge”，每次数据加载都可触发Minor合并。如果任意segment均可合并，那么合并将于数据加载时并行进行。 Minor合并有两个级别。 Level 1：合并未合并的segment。 Level 2：合并已合并的segment，以形成更大的segment。 Major合并：在Major合并中，许多segment可以合并为一个大的segment。用户将指定合并尺寸，将对未达到该尺寸的segment进行合并。Major合并通常在非高峰时段进行。 Custom合并：在Custom合并中，用户可以指定几个segment的id合并为一个大的segment。所有指定的segment的id必须存在并且有效，否则合并将会失败。Custom合并通常在非高峰时段进行。具体的命令操作，请参考ALTER TABLE COMPACTION。表1 合并参数参数默认值应用类型描述 carbon.enable.auto.load.merge false Minor 数据加载时启用合并。 “true”：数据加载时自动触发segment合并。 “false”：数据加载时不触发segment合并。 carbon.compaction.level.threshold 4,3 Minor 对于Minor合并，该属性参数决定合并segment的数量。例如，如果该参数设置为“2,3”，在Level 1，每2个segment触发一次Minor合并。在Level2，每3个Level 1合并的segment将被再次合并为新的segment。合并策略根据实际的数据大小和可用资源决定。有效值为0-100。 carbon.major.compaction.size 1024mb Major 通过配置该参数可配置Major合并。低于该阈值的segment之和将被合并。例如，如果该阈值是1024MB，且有5个大小依次为300MB，400MB，500MB，200MB，100MB的segment用于Major合并，那么只有相加的总数小于阈值的segment会被合并，也就是300+400+200+100 = 1000MB的segment会被合并，而500MB的segment将会被跳过。 carbon.numberof.preserve.segments 0 Minor/Major 如果用户希望从被合并的segment中保留一定数量的segment，可通过该属性参数进行设置。例如，“carbon.numberof.preserve.segments”=“2”，那么最新的2个segment将不会包含在合并中。默认不保留任何segment。 carbon.allowed.compaction.days 0 Minor/Major 合并将合并在指定的配置天数中加载的segment。例如，如果配置为“2”，那么只有在2天的时间框架中被加载的segment可以被合并。在2天以外被加载的segment将不被合并。默认为禁用。 carbon.number.of.cores.while.compacting 2 Minor/Major 在合并过程中写入数据时所用的核数。配置的核数越大合并性能越好。如果CPU资源充足可以增加此值。 carbon.merge.index.in.segment true SEGMENT_INDEX 如果设置为true，则一个segment中所有Carbon索引文件（.carbonindex）将合并为单个Carbon索引合并文件（.carbonindexmerge）。这增强了首次查询性能。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-导出Doris查询结果集:示例

示例导出到HDFS 将简单查询结果导出到文件“hdfs://path/to/result.txt”中，并指定导出格式为CSV。集群已启用Kerberos认证（安全模式） SELECT * FROM example_db.test_export_tbl INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_" FORMAT AS CSV PROPERTIES ( "broker.name" = "broker_192_168_67_78", "column_separator" = ",", "line_delimiter" = "\n", "max_file_size" = "100MB", "broker.hadoop.security.authentication" = "kerberos", "broker.kerberos_principal" = "doris/hadoop.hadoop.com@HADOOP.COM", "broker.kerberos_keytab" = "${BIGDATA_HOME}/FusionInsight_Doris_8.3.0/install/FusionInsight-Doris-1.2.3/doris-fe/bin/doris.keytab" ); 集群未启用Kerberos认证（普通模式） SELECT * FROM example_db.test_export_tbl INTO OUTFILE "hdfs://192.168.67.78:25000/tmp/result_" FORMAT AS CSV PROPERTIES ( "broker.name" = "broker_192_168_67_78", "column_separator" = ",", "line_delimiter" = "\n", "max_file_size" = "100MB", "broker.username"="hdfs", "broker.password"="" ); 导出到本地文件导出到本地文件时需要先在“fe.conf”中配置enable_outfile_to_local=true。 select * from tbl1 limit 10 INTO OUTFILE "file:///home/work/path/result_";

MAPREDUCE服务 MRS Doris数据分析

MAPREDUCE服务 MRS-删除CarbonData表:操作步骤

操作步骤运行如下命令删除表。命令： DROP TABLE [IF EXISTS] [db_name.]table_name; 一旦执行该命令，将会从系统中删除表。命令中的“db_name”为可选参数。如果没有指定“db_name”，那么将会删除当前数据库下名为“table_name”的表。示例： DROP TABLE productdb.productSalesTable; 通过上述命令，删除数据库“productdb”下的表“productSalesTable”。

MAPREDUCE服务 MRS CarbonData数据分析

MAPREDUCE服务 MRS-导出Doris数据至HDFS:前提条件

前提条件已创建包含Doris服务的集群，集群内各服务运行正常。待连接Doris数据库的节点与MRS集群网络互通。创建具有Doris管理权限的用户。集群已启用Kerberos认证（安全模式）在FusionInsight Manager中创建一个人机用户，例如“dorisuser”，创建一个拥有“Doris管理员权限”的角色绑定给该用户。使用新建的用户dorisuser重新登录FusionInsight Manager，修改该用户初始密码。集群未启用Kerberos认证（普通模式）使用admin用户连接Doris后，创建具有管理员权限的角色并绑定给用户。已安装MySQL客户端，相关操作可参考使用MySQL客户端连接Doris。

MAPREDUCE服务 MRS Doris数据分析

MAPREDUCE服务 MRS-修改CarbonData表:SET和UNSET

SET和UNSET 当使用set命令时，所有新set的属性将会覆盖已存在的旧的属性。 SORT SCOPE SET SORT SCOPE命令示例： ALTER TABLE tablename SET TBLPROPERTIES('SORT_SCOPE'='no_sort') 当UNSET SORT SCOPE后，会使用默认值NO_SORT。 UNSET SORT SCOPE命令示例： ALTER TABLE tablename UNSET TBLPROPERTIES('SORT_SCOPE') SORT COLUMNS SET SORT COLUMNS命令示例： ALTER TABLE tablename SET TBLPROPERTIES('SORT_COLUMNS'='column1') 在执行该命令后，新的导入会使用新的SORT_COLUMNS配置值。用户可以根据查询的情况来调整SORT_COLUMNS，但是不会直接影响旧的数据。所以对历史的segments的查询性能不会受到影响，因为历史的segments不是按照新的SORT_COLUMNS。不支持UNSET命令，但是可以使用set SORT_COLUMNS等于空字符串来代替UNSET命令。 ALTER TABLE tablename SET TBLPROPERTIES('SORT_COLUMNS'='') 后续版本会加强自定义合并来对旧的segment重新排序。流式表不支持修改SORT_COLUMNS。如果inverted index的列从SORT_COLUMNS里面移除了，该列不会再创建inverted index。但是旧的INVERTED_INDEX配置值不会变化。

MAPREDUCE服务 MRS CarbonData数据分析

数据仓库服务 GAUSSDB(DWS)-交通卡口通行车辆分析:步骤四：车辆分析

步骤四：车辆分析执行ANALYZE。用于收集与数据库中普通表内容相关的统计信息，统计结果存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据，以生成最有效的查询执行计划。执行以下语句生成表统计信息： 1 ANALYZE; 查询数据表中的数据量。执行如下语句，可以查看已加载的数据条数。 1 2 SET current_schema= traffic_data; SELECT count(*) FROM traffic_data.gcjl; 车辆精确查询。执行以下语句，指定车牌号码和时间段查询车辆行驶路线。GaussDB(DWS)在应对点查时秒级响应。 1 2 3 4 5 6 SET current_schema= traffic_data; SELECT hphm, kkbh, gcsj FROM traffic_data.gcjl where hphm = 'YD38641' and gcsj between '2016-01-06' and '2016-01-07' order by gcsj desc; 车辆模糊查询。执行以下语句，指定车牌号码和时间段查询车辆行驶路线，GaussDB(DWS) 在应对模糊查询时秒级响应。 1 2 3 4 5 6 7 SET current_schema= traffic_data; SELECT hphm, kkbh, gcsj FROM traffic_data.gcjl where hphm like 'YA23F%' and kkbh in('508', '1125', '2120') and gcsj between '2016-01-01' and '2016-01-07' order by hphm,gcsj desc;

数据仓库服务 GAUSSDB(DWS) 模拟数据分析

数据仓库服务 GAUSSDB(DWS)-交通卡口通行车辆分析:支持区域

支持区域当前已上传OBS数据的区域如表1所示。表1 区域和OBS桶名区域 OBS桶名华北-北京一 dws-demo-cn-north-1 华北-北京二 dws-demo-cn-north-2 华北-北京四 dws-demo-cn-north-4 华北-乌兰察布一 dws-demo-cn-north-9 华东-上海一 dws-demo-cn-east-3 华东-上海二 dws-demo-cn-east-2 华南-广州 dws-demo-cn-south-1 华南-广州友好 dws-demo-cn-south-4 中国-香港 dws-demo-ap-southeast-1 亚太-新加坡 dws-demo-ap-southeast-3 亚太-曼谷 dws-demo-ap-southeast-2 拉美-圣地亚哥 dws-demo-la-south-2 非洲-约翰内斯堡 dws-demo-af-south-1 拉美-墨西哥城一 dws-demo-na-mexico-1 拉美-墨西哥城二 dws-demo-la-north-2 莫斯科二 dws-demo-ru-northwest-2 拉美-圣保罗一 dws-demo-sa-brazil-1

数据仓库服务 GAUSSDB(DWS) 模拟数据分析

MAPREDUCE服务 MRS-使用Hive加载OBS数据并分析企业雇员信息:创建MRS离线查询集群

创建MRS离线查询集群进入购买MRS集群页面。选择“快速购买”，填写软件配置参数。表3 软件配置（以下参数仅供参考，可根据实际情况调整）参数项取值区域华北-北京四计费模式按需计费集群名称 MRS_demo 版本类型普通版集群版本 MRS 3.1.0 组件选择 Hadoop分析集群可用区可用区1 虚拟私有云 vpc-01 子网 subnet-01 企业项目 default Kerberos认证不开启用户名 admin/root 密码设置密码登录集群管理页面及ECS节点用户的密码，例如：Test!@12345。确认密码再次输入设置用户密码通信安全授权勾选“确认授权” 图1 购买Hadoop分析集群单击“立即购买”，等待MRS集群创建成功。图2 集群创建成功

MAPREDUCE服务 MRS 数据分析

MAPREDUCE服务 MRS-使用Hive加载OBS数据并分析企业雇员信息:场景描述

场景描述 Hive是建立在Hadoop上的数据仓库框架，提供大数据平台批处理计算能力，能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：海量结构化数据分析汇总。将复杂的MapReduce编写任务简化为SQL语句。灵活的数据存储格式，支持JSON，CSV，TEXTFILE，RCFILE，SEQUENCEFILE，ORC（Optimized Row Columnar）这几种存储格式。本实践以用户开发一个Hive数据分析应用为例，通过客户端连接Hive后，执行HQL语句访问OBS中的Hive数据。进行企业雇员信息的管理、查询。如果需要基于MRS服务提供的样例代码工程开发构建应用，您可以参考Hive应用开发简介。本实践中，雇员信息的原始数据包含以下两张表：表1 表1 雇员信息数据编号姓名支付薪水币种薪水金额纳税税种工作地入职时间 1 Wang R 8000.01 personal income tax&0.05 China:Shenzhen 2014 3 Tom D 12000.02 personal income tax&0.09 America:NewYork 2014 4 Jack D 24000.03 personal income tax&0.09 America:Manhattan 2015 6 Linda D 36000.04 personal income tax&0.09 America:NewYork 2014 8 Zhang R 9000.05 personal income tax&0.05 China:Shanghai 2014 表2 雇员联络信息数据编号电话邮箱 1 135 XXXX XXXX xxxx@xx.com 3 159 XXXX XXXX xxxxx@xx.com.cn 4 186 XXXX XXXX xxxx@xx.org 6 189 XXXX XXXX xxxx@xxx.cn 8 134 XXXX XXXX xxxx@xxxx.cn 通过数据应用，进行以下分析：查看薪水支付币种为美元的雇员联系方式。查询入职时间为2014年的雇员编号、姓名等字段，并将查询结果加载到新表中。统计雇员信息共有多少条记录。查询使用以“cn”结尾的邮箱的员工信息。

MAPREDUCE服务 MRS 数据分析

AI开发平台MODELARTS-孤立森林[PySpark版]:参数说明

参数说明参数是否必选参数说明默认值 b_use_default_encoder 是是否对数据中的类别型特征列进行编码处理。 True input_features_str 否选择特征列，逗号分隔。无 num_trees 是孤立森林中树的个数。 100 bootstrap 是采样数据构建孤立树时是否为有放回采样。 False max_samples 是训练单棵孤立树的最大样本个数，改值小于1.0时该值乘以总样本数取整得到单棵孤立树的训练样本数，大于1.0时取整得到单棵数的训练样本数。 256.0 max_features 是参与训练的特征数，小于等于1.0时特征为该值乘以总特征个数。 1.0 feature_vector_col 是 input_features_str中的特征列处理为向量列后的列名。 "assembled_features" prediction_col 是预测结果列名。 "prediction" score_col 是异常分数列，该列数值为孤立森林算法中每个样本的分数值，值越大异常可能越大。 "outlier_score" contamination 是异常值比例，取值0到1浮点数，score_col列中数值大于contamination * 100%分位数值的样本视为异常值，如果为0.0则prediction_col列输出均为0.0非异常。 0.0 contamination_error 是计算分位数时允许的误差，如果为0.0则实际计算时为contamination * 0.01。 0.0 seed 是随机种子。 0

AI开发平台MODELARTS 数据分析

AI开发平台MODELARTS-孤立森林[PySpark版]:样例

样例数据样本为信用卡欺诈检测数据，包含Time，V1，V2，V3，V4，V5，V6，V7，V8，V9，V10，V11，V12，V13，V14，V15，V16，V17，V18，V19，V20，V21，V22，V23，V24，V25，V26，V27，V28，Amount等特征。图1 数据样本配置流程下图上边部分运行孤立森林算子，得到异常检测结果和孤立森林模型，下边部分加载保存的模型和新的数据进行预测。图2 配置流程参数设置图3 参数设置界面查看结果

AI开发平台MODELARTS 数据分析

数据湖探索 DLI-使用DLI Flink SQL进行电商实时业务数据分析:资源和成本规划

资源和成本规划表1 资源和成本规划资源资源说明成本说明 OBS 需要创建一个OBS桶将数据上传到对象存储服务OBS，为后面使用DLI完成数据分析做准备。 OBS的使用涉及以下几项费用：存储费用：静态网站文件存储在OBS中产生的存储费用。请求费用：用户访问OBS中存储的静态网站文件时产生的请求费用。流量费用：用户使用自定义域名通过公网访问OBS时产生的流量费用。实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关，请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列，使用DLI的队列资源时，按照队列CU时进行计费。如购买按需计费的队列，在使用队列资源时，按照队列CU时进行计费。以小时为单位进行结算。不足一小时按一小时计费，小时数按整点计算。队列CU时按需计费的计算费用=单价*CU数*小时数。 VPC VPC丰富的功能帮助您灵活管理云上网络，包括创建子网、设置安全组和网络ACL、管理路由表、申请弹性公网IP和带宽等。 VPC本身不收取费用。但如有互联网访问需求，您需要购买弹性公网IP。弹性公网IP提供“包年/包月”和“按需计费”两种计费模式。了解VPC计费说明。 DMS Kafka Kafka提供的消息队列服务，向用户提供计算、存储和带宽资源独占式的Kafka专享实例。 Kafka版支持按需和包周期两种付费模式。Kafka计费项包括Kafka实例和Kafka的磁盘存储空间。了解Kafka计费说明。 RDS MySQL 数据库 RDS for MySQL提供在线云数据库服务。 RDS对您选择的数据库实例、数据库存储和备份存储（可选）收费。了解RDS计费说明。 DLV DLV适配云上云下多种数据源，提供丰富多样的可视化组件，快速定制数据大屏。使用DLV服务的费用主要是DLV包年包月套餐的费用，您可以根据实际使用情况，选择合适的版本规格。了解DLI产品价格详情。

数据湖探索 DLI 数据分析

云服务器内容精选

数据分析

7*24

备案

专业服务

退订

建议反馈

售前咨询热线