华为云用户手册

  • Flink作业如何保存作业日志 在创建Flink SQL作业或者Flink Jar作业时,可以在作业编辑页面,勾选“保存作业日志”参数,将作业运行时的日志信息保存到OBS。 勾选“保存作业日志”参数后,需配置“OBS桶”参数,选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 日志信息的保存路径为:“桶名/jobs/logs/作业id开头的目录”。其中,“桶名”可以自定义。“/jobs/logs/作业id开头的目录”为固定格式。 在作业列表中,单击对应的作业名称,然后在“运行日志”页签,可以单击页面提供的OBS链接跳转至对应的路径下。 关于如何创建Flink SQL作业或者Flink Jar作业,请参考《 数据湖探索 用户指南》。 父主题: 使用咨询
  • 解决方案 出现该问题时建议通过以下操作步骤解决。 登录DWS命令执行窗口,执行以下SQL命令,临时将所有non-active的连接释放掉。 SELECT PG_TERMINATE_BACKEND(pid) from pg_stat_activity WHERE state='idle'; 检查应用程序是否未主动释放连接,导致连接残留。建议优化代码,合理释放连接。 在 GaussDB (DWS) 控制台设置会话闲置超时时长session_timeout,在闲置会话超过所设定的时间后服务端将主动关闭连接。 session_timeout默认值为600秒,设置为0表示关闭超时限制,一般不建议设置为0。 session_timeout设置方法如下: 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“集群管理”。 在集群列表中找到所需要的集群,单击集群名称,进入集群“基本信息”页面。 单击“参数修改”页签,修改参数“session_timeout”,然后单击“保存”。 在“修改预览”窗口,确认修改无误后,单击“保存”。 更多问题处理步骤,请参考DWS数据库连接问题。
  • 执行查询语句报错:There should be at least one partition pruning predicate on partitioned table XX.YYY 原因分析: 上述报错信息说明:partitioned table XX.YYY执行查询时,其查询条件中未使用其表分区列。 查询分区表时,查询条件中每个分区表必须包含至少一个分区列才允许执行,否则不允许执行。 解决方法: 建议用户参考如下例子查询分区表: 其中partitionedTable为分区表,partitionedColumn为分区列,查询语句为: SELECT * FROM partitionedTable WHERE partitionedColumn = XXX 查询每个分区表时必须包含至少一个分区条件。 父主题: 作业运维报错
  • 问题现象 Flink SQL作业创建表时,表名使用EL表达式,运行作业时报如下错误: DLI .0005: AnalysisException: t_user_message_input_#{date_format(date_sub(current_date(), 1), 'yyyymmddhhmmss')} is not a valid name for tables/databases. Valid names only contain alphabet characters, numbers and _.
  • 问题现象 使用Flink作业输出流写入数据到了OBS中,通过该OBS文件路径创建的DLI表进行数据查询时,无法查询到数据。 例如,使用如下Flink结果表将数据写入到OBS的“obs://obs-sink/car_infos”路径下。 create sink stream car_infos_sink ( carId string, carOwner string, average_speed double, buyday string ) partitioned by (buyday) with ( type = "filesystem", file.path = "obs://obs-sink/car_infos", encode = "parquet", ak = "{{myAk}}", sk = "{{mySk}}"); 通过该OBS文件路径创建DLI分区表,在DLI查询car_infos表数据时没有查询到数据。 create table car_infos ( carId string, carOwner string, average_speed double) partitioned by (buyday string) stored as parquet location 'obs://obs-sink/car_infos';
  • 大数据ETL处理 运营商大数据分析 运营商数据体量在PB~EB级,其数据种类多,有结构化的基站信息数据,非结构化的消息通信数据,同时对数据的时效性有很高的要求,DLI服务提供批处理、流处理等多模引擎,打破数据孤岛进行统一的数据分析。 优势 大数据ETL:具备TB~EB级运营商 数据治理 能力,能快速将海量运营商数据做ETL处理,为分布式批处理计算提供分布式数据集。 高吞吐低时延:采用Apache Flink的Dataflow模型,高性能计算资源,从用户自建的Kafka、 MRS -Kafka、DMS-Kafka消费数据,单CU每秒吞吐1千~2万条消息。 细粒度权限管理:P公司内部有N个子部门,子部门之间需要对数据进行共享和隔离。DLI支持计算资源按租户隔离,保障作业SLA;支持数据权限控制到表/列,帮助企业实现部门间数据共享和权限管理。 建议搭配以下服务使用 OBS、DIS、 DataArts Studio
  • 地理大数据分析 地理大数据分析 地理大数据具有大数据的相关特征,数据体量巨大,例如全球卫星遥感影像数据量达到PB级;数据种类多,有结构化的遥感影像栅格数据、矢量数据,非结构化的空间位置数据、三维建模数据;在大体量的地理大数据中,通过高效的挖掘工具或者挖掘方法实现价值提炼,是用户非常关注的话题。 优势 提供地理专业算子:支持全栈Spark能力,具备丰富的Spark空间数据分析算法算子,全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,支持带有位置属性的动态流数据实时计算处理。 CEP SQL:提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景。 大数据治理能力:能快速将海量遥感影像数据接入上云,快速完成影像数据切片处理,为分布式批处理计算提供弹性分布式数据集。 建议搭配以下服务使用 DIS、 CDM 、DES、OBS、RDS、CloudTable
  • 问题现象 在DataArts Studio上运行DLI SQL脚本,执行结果的运行日志显示语句执行失败,错误信息为: DLI.0999: RuntimeException: org.apache.hadoop.fs.obs.OBSIOException: initializing on obs://xxx.csv: status [-1] - request id[null] - error code [null] - error message [null] - trace :com.obs.services.exception.ObsException: OBS servcie Error Message. Request Error:...Cause by: ObsException: com.obs.services.exception.ObsException: OBSs servcie Error Message. Request Error: java.net.UnknownHostException: xxx: Name or service not known
  • 解决方案 登录 IAM 控制台页面,单击“用户”,在搜索框中选择“用户名”,输入运行作业的IAM用户名。 单击查询到用户名,查看该用户对应的用户组。 单击“用户组”,输入查询到的用户组查询,单击用户组名称,在“授权记录”中查看当前用户的权限。 确认当前用户所属用户组下的权限是否包含OBS写入的权限,比如“OBS OperateAccess”。如果没有OBS写入权限,则给对应的用户组进行授权。 授权完成后,等待5到10分钟等待权限生效。再次运行失败的Flink SQL作业,查看作业运行状态。
  • 海量 日志分析 游戏运营数据分析 游戏公司不同部门日常通过游戏数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等,了解游戏当前状态及后续响应活动措施;投放部门通过平台获取新增玩家、活跃玩家的渠道来源,来决定下一周期重点投放哪些平台。 优势 高效的Spark编程模型:使用Spark Streaming直接从DIS中获取数据,进行数据清理等预处理操作。只需编写处理逻辑,无需关心多线程模型。 简单易用:直接使用标准SQL编写指标分析逻辑,无需关注背后复杂的分布式计算平台。 按需计费:日志分析按实效性要求按周期进行调度,每次调度之间存在大量空闲期。DLI按需计费只在使用期间收费,成本较独占队列降低50%以上。 建议搭配以下服务使用 OBS,DIS,DWS,RDS
  • 异构数据源联邦分析 车企数字化服务转型 面临市场新的竞争压力及出行服务不断变革,车企通过构建车联云平台和车机OS,将互联网应用与用车场景打通,完成车企数字化服务转型,从而为车主提供更好的智联出行体验,增加车企竞争力,促进销量增长。例如:通过对车辆日常指标数据(电池、发动机,轮胎胎压、安全气囊等健康状态)的采集和分析,及时将维保建议回馈给车主。 优势 多源数据分析免搬迁:关系型数据库RDS中存放车辆和车主基本信息, 表格存储 CloudTable中存放实时的车辆位置和健康状态信息, 数据仓库 DWS中存放周期性统计的指标。通过DLI无需数据搬迁,对多数据源进行联邦分析。 数据分级存储:车企需要保留全量历史数据支撑审计类等业务,低频进行访问。温冷数据存放在低成本的 对象存储服务 OBS上,高频访问的热数据存放在数据引擎(CloudTable和DWS)中,降低整体存储成本。 告警快速敏捷触发服务器弹性伸缩:对CPU、内存、硬盘空间和带宽无特殊要求。 建议搭配以下服务使用 DIS、CDM、OBS、DWS、RDS、CloudTable
  • OBS表压缩率较高 当Parquet/Orc格式的OBS表对应的文件压缩率较高时(跟文本相比,超过5倍压缩率),建议在提交导入数据到DLI表作业时,在submit-job请求体conf字段中配置“dli.sql.files.maxPartitionBytes=33554432”,该配置项默认值为128MB,将其配置成32MB,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。 父主题: 运维指导
  • 什么是DLI 数据湖 探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、 CSS 、OBS、E CS 自建数据库以及线下数据库的异构数据进行探索。 父主题: 使用咨询
  • DLI的数据可存储在哪些地方 DLI服务的数据可存储在如下地方: OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。 DLI:DLI内部使用的是列存的Parquet格式,即数据以Parquet格式存储。存储成本较高。 跨源作业可将数据存储在对应的服务中,目前支持CloudTable,CSS,DCS,DDS,DWS,MRS,RDS等。 父主题: 使用咨询
  • 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 香港、曼谷等其他地区和国家提供国际带宽,主要面向非中国大陆地区的用户。如果您或者您的目标用户在中国大陆,使用这些区域会有较长的访问时延,不建议使用。 在除中国大陆以外的亚太地区有业务的用户,可以选择“中国-香港”、“亚太-曼谷”或“亚太-新加坡”区域。 在非洲地区有业务的用户,可以选择“南非-约翰内斯堡”区域。 在欧洲地区有业务的用户,可以选择“欧洲-巴黎”区域。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。
  • DLI使用 SMN 主题,提示SMN主题不存在,怎么处理? 设置DLI Flink作业的运行参数时,勾选“作业异常告警”参数,可在作业出现运行异常或者欠费情况时,将作业异常告警信息,以SMN的方式通知用户。 如何自定义SMN主题,请参见《 消息通知 服务用户指南》中“创建主题”章节。 如果使用已创建的SMN主题时,提示SMN主题不存在,请进入 统一身份认证 服务(IAM),选择对应子账户所在的用户组,添加相应Region的SMN策略。 父主题: 使用咨询
  • 如何获取AK/SK? 访问密钥即AK/SK(Access Key ID/Secret Access Key),表示一组密钥对,用于验证调用API发起请求的访问者身份,与密码的功能相似。用户通过调用API接口进行云资源管理(如创建集群)时,需要使用成对的AK/SK进行加密签名,确保请求的机密性、完整性和请求双方身份的正确性。获取AK/SK操作步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在左侧导航栏单击“访问密钥”。 单击“新增访问密钥”,进入“新增访问密钥”页面。 根据提示输入对应信息,单击“确定”,在弹出的提示页面单击“立即下载”。 下载成功后,打开凭证文件,获取AK/SK信息。 为防止访问密钥泄露,建议您将其保存到安全的位置。 父主题: 使用API相关问题
  • 如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。例如project_id:"5a3314075bfa49b9ae360f4ecd333695"。 父主题: 使用API相关问题
  • 作业语义检验时提示DIS通道不存在怎么处理? 处理方法如下: 登录到DIS管理控制台,在左侧菜单栏选择“通道管理”。检查Flink作业SQL语句中的DIS通道是否存在。 如果Flink作业中的DIS通道还未创建,请参见《 数据接入服务 用户指南》中“开通DIS通道”章节。 确保创建的DIS通道和Flink作业处于统一区域。 如果DIS通道已创建,则检查确保DIS通道和Flink流作业是否处与同一区域。 父主题: 运维指导
  • Cloudera Manager(6.x安装方式相同) 离线下载CM安装包上传到服务器,主节点上传server和daemons,从节点上传agent和daemons cloudera-manager-agent-6.2.1-1426065.el7.x86_64.rpmcloudera-manager-daemons-6.2.1-1426065.el7.x86_64.rpmcloudera-manager-server-6.2.1-1426065.el7.x86_64.rpm 安装CM yum install bind-utils psmisc cyrus-sasl-plain cyrus-sasl-gssapi fuse portmap fuse-libs /lib/lsb/init-functions httpd mod_ssl openssl-devel python-psycopg2 MySQL-python libxsltrpm -ivh cloudera-manager-daemons-6.0.1-610811.el7.x86_64.rpmrpm -ivh cloudera-manager-server-6.0.1-610811.el7.x86_64.rpm 修改服务主机(所有agent) vim /etc/cloudera-scm-agent/config.iniserver_host=master # server主机hostserver_port=7182 设置CM数据库 sudo /opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm scm# 输入scm密码 启动server sudo systemctl start cloudera-scm-server 查看启动情况 tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log 查看server状态 sudo systemctl status cloudera-scm-server显示以下信息说明启动完成INFO WebServerImpl:com.cloudera.server.cmf.WebServerImpl: Started Jetty server. 登录web web:http://master:7180账号密码:admin 父主题: CDH 部署
  • 上传并解压 上传安装包到服务器/soft/rocketmq # cd /soft/rocketmq# unzip rocketmq-all-4.4.0-bin-release.zip# mv rocketmq-all-4.4.0-bin-release /opt/rocketmq-4.4.0 创建目录 # mkdir -p /data/rocketmq-4.4.0/data/store-master/{commitlog,consumequeue,index}# mkdir -p /data/rocketmq-4.4.0/data/store-slave/{commitlog,consumequeue,index}# mkdir -p /data/rocketmq-4.4.0/logs 父主题: Rocketmq部署
  • 配置哨兵 创建哨兵数据目录 # mkdir /data/redis-6.0.0/data/sentinel 新增配置文件 # vim /opt/redis-6.0.0/config/sentinel/sentinel.conf 分别在主从redis创建sentinel配置文件(3个实例一样) port 16379daemonize yespidfile /var/run/redis-sentinel.pidlogfile /data/redis-6.0.0/logs/sentinel.logdir /data/redis-6.0.0/data/sentinelsentinel deny-scripts-reconfig yes#配置主redis的地址,“2”表示集群中有2个Sentinel认为master宕机了就切换sentinel monitor redisMaster 192.168.0.82 6379 2sentinel auth-pass redisMaster Mypwd@123456sentinel config-epoch redisMaster 1sentinel leader-epoch redisMaster 1 启动哨兵,分别在主从redis创建redis-sentinel系统启动文件 # vim /etc/systemd/system/redis-sentinel.service[Unit]Description=The redis-sentinel Process ManagerAfter=syslog.target network.target[Service]Type=forkingPIDFile=/var/run/redis-sentinel.pidExecStart=/opt/redis-6.0.0/bin/redis-sentinel /opt/redis-6.0.0/config/sentinel/sentinel.confExecStop=/opt/redis-6.0.0/bin/redis-cli -h 127.0.0.1 -p 16379 shundownPrivateTmp=true[Install]WantedBy=multi-user.target 重新加载systemctl配置 # systemctl daemon-reload 设置跟随linux启动,并启动es # systemctl start redis-sentinel && systemctl enable redis-sentinel 查看启动日志 # cat /data/redis-6.0.0/logs/sentinel.log 图1 查看启动日志 检查redis主从状态 # redis-cli -h 127.0.0.1 -p 6379 -a Mypwd@123456 info replication 图2 查看启动日志 # Replicationrole:master #角色master或者slaveconnected_slaves:2 #连接的slave个数min_slaves_good_slaves:2slave0:ip=192.168.0.228 ,port=6379,state=online,offset=288218,lag=0 #slave1节点信息slave1:ip=192.168.0.56,port=6379,state=online,offset=288078,lag=1 #slave2节点信息master_replid:2ac8c63f0185a38189010b192e42b761e69f549amaster_replid2:4490ff668a9d41d5636e6a382ff1e80ca31892cfmaster_repl_offset:288218master_repl_meaningful_offset:288218second_repl_offset:69703repl_backlog_active:1repl_backlog_size:1048576repl_backlog_first_byte_offset:1repl_backlog_histlen:288218 父主题: Redis部署
  • 安装机器 前提 CDH中需要有两个Hadoop集群,每个集群下部署一套DS (CDH机器允许部署的情况) 如果是POC,可以只用一套DS CDH机器不允许部署的情况,参考https://deepexi.yuque.com/docs/share/cbb7e60f-7188-41ef-8a72-219f269c07aa?#,将部署机器加入CDH集群管理即可 父主题: DolphinScheduler部署
  • 修改livy配置文件 [root@tools]# cd /opt/apache-livy-0.7.0-incubating-bin/conf/[root@tools]# cp livy.conf.template livy.conf[root@tools]# vim livy.conf 修改配置项(非kerberos直接复制以下配置粘贴保存): livy.spark.master = yarn livy.spark.deployMode = cluster livy.environment = production livy.impersonation.enabled = true livy.server.csrf_protection.enabled true livy.server.port = 8998 livy.server.session.timeout = 3600000 livy.server.recovery.mode = recovery livy.server.recovery.state-store=filesystem livy.server.recovery.state-store.url=/tmp/livy kerberos集群需增加的配置(kerberos用户以及认证文件找相关运维人员要): livy.server.launch.kerberos.keytab = /etc/daas/kerberos/prd/kafka.keytab livy.server.launch.kerberos.principal = kafka/hadoop03.daas.com@DAAS.COM livy.server.access-control.enabled = false livy.server.auth.type = kerberos livy.server.auth.kerberos.principal = HTTP/hadoop1.daas.com@DAAS.COM livy.server.auth.kerberos.keytab =/etc/daas/kerberos/dev/http.keytab livy.server.auth.kerberos.name-rules = DEFAULT 父主题: Livy部署
  • 租户用户创建 使用admin/dolphinscheduler123 登录,到租户管理中创建hdfs租户,编码一定要是hdfs 图1 图示1 创建用户,并退出admin账户,登录新创建的用户,再到资源中心上传文件,将flink-sql-submit.jar,hive-sync.sh上传上去即可。 图2 图示2 在严格按照文档操作的情况下是不会有问题的,如有问题,请参考文档https://deepexi.yuque.com/docs/share/861156b4-bfe0-4e29-be6b-1b7e62cb549c?# 父主题: DolphinScheduler部署
  • 修改livy环境变量配置文件 [root@tools]# cp livy-env.sh.template livy-env.sh[root@tools]# vim livy-env.sh 修改配置项(以下配置需根据具体环境改动): export JAVA_HOME=/usr/java/default export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop export SPARK_CONF_DIR=/opt/cloudera/parcels/CDH/lib/spark/conf export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop export LIVY_ LOG _DIR=/var/log/livy export LIVY_PID_DIR=/var/run/livy export LIVY_SERVER_JAVA_OPTS="-Xmx8g" 父主题: Livy部署
  • 修改配置 找到 hdfs-site.xml 和 core-site.xml 文件,一般在 /etc/hadoop/conf 目录下,复制到/data/daas/dolphinscheduler-backend/conf目录下 # cp /etc/hadoop/conf/hdfs-site.xml /etc/hadoop/conf/core-site.xml /data/daas/dolphinscheduler-backend/conf 修改运行参数,修改 `conf/env` 目录下的 `.dolphinscheduler_env.sh` 环境变量(以相关用到的软件都安装在/opt/soft下为例) [dolphinscheduler@tools]# vi /data/daas/dolphinscheduler-backend/conf/env/.dolphinscheduler_env.shexport HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoopexport HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoopexport SPARK_HOME=/opt/cloudera/parcels/CDH/lib/sparkexport HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hiveexport JAVA_HOME=/usr/java/jdk1.8.0_251-amd64export PYTHON_HOME=/usr/bin/python2.7export FLINK_HOME=/opt/flinkexport DATAX_HOME=/opt/soft/dataxPATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$FLINK_HOME/bin:$PATH 修改一键部署脚本 install.sh中的各参数,特别注意以下参数的配置(这个配置很重要,如果设置不当,dolphinscheduler是启动不了的,输入后要多次检查) [root@tools]# vi /data/daas/dolphinscheduler-backend/install.shdbtype="mysql" #数据库地址dbhost="10.57.4.14:3306"#数据库名字dbname="dolphinscheduler" #数据库用户username="root"#密码passowrd="daas2020" #改成上面已经授权了的路径installPath="/data/daas/dolphinscheduler" #安装用户,就是前面linux新建的用户deployUser="dolphinscheduler" #改成对应的zookeeper地址和端口,如果是集群部署,用逗号隔开zkQuorum="10.201.0.1112:2181,10.201.0.1113:2181" #部署ds的机器,用逗号隔开,所有worker机器都需要写上,如果只有一台机器则写一个ipips="10.201.0.112,10.201.0.113" #master服务部署在哪台机器上,所有master机器都需要写上并且用逗号隔开masters="10.201.0.112"#worker服务部署在哪台机器上,所有worker机器都需要写上并且用逗号隔开workers="10.201.0.112"#报警服务部署在哪台机器上(一般在master)alertServer="10.201.0.112"#后端api服务部署在在哪台机器上(只在一台机器部署就可以)apiServers="10.201.0.112" #邮件协议mailProtocol="SMTP" # mail server host# 邮件配置,以qq邮箱为例mailServerHost="smtp.exmail.qq.com" # mail server port#邮件端口mailServerPort="25" # sender#发送者mailSender="daas@deepexi.com" #发送用户mailUser=""daas@deepexi.com" # sender password#邮箱密码mailPassword="daas2020" # TLS协议的邮箱设置为true,否则设置为falsestarttlsEnable="true"# 邮件服务地址值,参考上面 mailServerHostsslTrust="smtp.mxhichina.com" # 开启SSL协议的邮箱配置为true,否则为false。注意: starttlsEnable和sslEnable不能同时为truesslEnable="false" # 这里必须改为HDFSresUploadStartupType="HDFS" #hdfs地址defaultFS="hdfs://10.201.0.112:8020" #yarn集群的所有ip,用逗号隔开,例如"10.201.0.112,10.201.0.113" ,如果不是集群,则不用填yarnHaIps= #如果yarn是集群的则不用填,如果不是集群,则填ip,例如"10.201.0.112"singleYarnIp=#hdfs目录hdfsPath="/dolphinscheduler" # 注意,如果开启了 kerberos ,这个选项为空hdfsRootUser="hdfs" 父主题: DolphinScheduler部署
  • 前端UI部署(在线、离线二选一进行部署) 在线部署 进入dolphinscheduler-ui目录下执行,切换到root用户 sh ./install-dolphinscheduler-ui.sh,执行后,会在运行中请键入前端端口,默认端口是8888,或者键入其他端口,然后会让键入跟前端ui交互的api-server的ip,接着是让键入跟前端ui交互的api-server的port,接着是操作系统选择,最后等待部署完成 离线部署 安装nginx前首先要确认系统中安装了gcc、pcre-devel、zlib-devel、openssl-devel 切换到root用户下,上传nginx-1.16.1.tar.gz到/data/daas # tar -zxvf nginx-1.16.1.tar.gz # cd nginx-1.16.1 #./configure --without-http_rewrite_module --without-http_gzip_module --prefix=/usr/local/nginx /usr/local/nginx是nginx的安装目录 # make & make install # cd /usr/local/nginx/sbin # ./nginx 修改nginx.conf配置 # cd /usr/local/nginx/conf# vim nginx.confserver {listen 8888; # 访问端口(自行修改)server_name ip; # api服务的iplocation / {root /data/daas/dolphinscheduler_ui/dist; # 前端解压的dist目录地址(自行修改)index index.html index.html;}client_max_body_size 50m;location /dolphinscheduler {proxy_pass http://ip:12345;# API服务 的接口地址(自行修改)proxy_set_header Host $host;proxy_set_header X-Real-IP $remote_addr;proxy_set_header x_real_ipP $remote_addr;proxy_set_header remote_addr $remote_addr;proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;proxy_http_version 1.1;proxy_connect_timeout 4s;proxy_read_timeout 30s;proxy_send_timeout 12s;proxy_set_header Upgrade $http_upgrade;proxy_set_header Connection "upgrade";}}# cd /usr/local/nginx/sbin 重启nginx # ./nginx -s reload 浏览器访问http://ip:8888,出现登录页面即可 父主题: DolphinScheduler部署
  • 配置数据规则引擎运行环境 hadoop fs -mkdir /griffin/hadoop fs -put -f /opt/griffin-measure.jar /griffin/hadoop fs -mkdir -p /home/spark_conf/hadoop fs -put -f /opt/cloudera/parcels/CDH/lib/hive/conf/hive-site.xml /home/spark_conf/ 父主题: Livy部署
共100000条