云服务器内容精选

  • 企业数字化转型面临的挑战 企业在进行数据管理时,通常会遇到下列挑战。 数据治理 的挑战 缺乏企业数据体系标准和数据规范定义的方法论,数据语言不统一。 缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到。 缺乏技术元数据与业务元数据的关联,数据读不懂。 缺乏数据的质量管控和评估手段,数据不可信。 数据运营的挑战 数据运营效率低,业务环境的快速变化带来大量多样化的数据分析报表需求,因为缺乏高效的数据运营工具平台,数据开发周期长、效率低,不能满足业务运营决策人员的诉求。 数据运营成本高,数据未服务化,导致数据复制多、数据口径不一致,同时数据重复开发,造成资源浪费。 数据创新的挑战 企业内部存在大量数据孤岛,导致数据不共享、不流通,无法实现跨领域的数据分析与数据创新。 数据的应用还停留在数据分析报表阶段,缺乏基于数据反哺业务推动业务创新的解决方案。
  • 什么是 DataArts Studio 数据治理中心 DataArts Studio是为了应对上述挑战,针对企业数字化运营诉求提供的具有数据全生命周期管理和智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、数据架构、数据质量监控、数据资产管理、数据服务、数据安全等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。 产品架构如图1所示。 图1 产品架构 如图所示,DataArts Studio基于数据底座,提供数据集成、开发、治理等能力。DataArts Studio支持对接所有华为云的 数据湖 与数据库云服务作为数据底座,例如 MRS Hive、 数据仓库 服务DWS等,也支持对接企业传统数据仓库,例如Oracle、MySQL等。 DataArts Studio包含如下功能组件: 管理中心 提供DataArts Studio数据连接管理的能力,将DataArts Studio与数据底座进行对接,用于数据开发与数据治理等活动。 数据集成 数据集成提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。 数据架构 作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统一数据标准、可视化数据建模、标注数据标签等功能,有利于改善数据质量,有效支撑经营决策。 数据开发 大数据开发环境,降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。支持数据建模、数据集成、脚本开发、工作流编排等操作,轻松完成整个数据的处理分析流程。 数据质量 数据全生命周期管控,数据处理全流程质量监控,异常事件实时通知。 数据目录 提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据血缘和数据全景可视,提供数据智能搜索和运营监控。 数据服务 数据服务定位于标准化的数据服务平台,提供一站式数据服务开发、测试部署能力,实现数据服务敏捷响应,降低数据获取难度,提升数据消费体验和效率,最终实现数据资产的变现。 数据安全 数据安全为数据治理中心提供数据生命周期内统一的数据使用保护能力。通过访问权限管理、敏感数据识别、隐私保护管理等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。
  • 技术工具 数据安全技术体系并非单一产品或平台的构建,而是覆盖数据全生命周期,结合组织自身使用场景的体系建设。依照组织数据安全建设的方针总则,围绕数据全生命周期各阶段的安全要求,建立与制度流程相配套的技术和工具。 图3 数据安全技术体系 其中基础通用技术工具为数据全生命周期的安全提供支撑: 数据分类分级相关工具平台主要实现数据资产扫描梳理、数据分类分级打标和数据分类分级管理等功能。 身份认证及访问控制相关工具平台,主要实现在数据全生命周期各环节中涉及的所有业务系统和管理平台的身份认证和权限管理。 监控审计相关工具平台接入业务系统和管理平台,实现对数据安全风险的实时监控,并能进行统一审计。 日志管理平台收集并分析所有业务系统和管理平台的日志,并统一日志规范以支持后续的风险分析和审计等工作。 安全及合规评估相关工具平台主要用于综合评估数据安全现状和合规风险。 数据全生命周期安全技术为生命周期中特定环节面临的风险提供管控技术保障。整个数据全生命周期可以通过组合或复用以下多种技术实现数据安全: 敏感数据识别通过对采集的数据进行识别和梳理,发现其中的敏感数据,以便进行安全管理。 备份与恢复技术是防止数据破坏、丢失的有效手段,用于保证数据可用性和完整性。 数据加密 相关工具平台通过提供常见的加密模块及密钥管理能力,落地数据的加密需求。 数据脱敏是通过一定的规则对特定数据对象进行变形的一类技术,用于防止数据泄露和违规使用等。 数据水印技术通过对数据进行处理使其承载特定信息,使得数据具备追溯数据所有者与分发对象等信息的能力。在数据处理过程中起到威慑及追责的作用。 数据泄密防护技术通过终端防泄露技术、邮件防泄露技术、网络防泄露技术,防止敏感数据在违反安全策略规定的情况下流出企业。 API安全管理相关工具平台提供内部接口和外部接口的安全管控和监控审计能力,保障数据传输接口安全。 数据删除是一种逻辑删除技术,为保证删除数据的不可恢复,一般会采取数据多次的覆写、清除等操作。 隐私计算通过实现数据的可用不可见,从而满足隐私安全保护、价值转化及释放。
  • 组织建设 数据安全组织架构是数据安全治理体系建设的前提条件。通过建立专门的数据安全组织,落实数据安全管理责任,确保数据安全相关工作能够持续稳定地贯彻执行。 数据安全治理组织架构一般由决策层、管理层、执行层与监督层构成,各层之间通过定期会议沟通等工作机制实现紧密合作、相互协同。决策层指导管理层工作的开展,并听取管理层关于工作情况和重大事项等的汇报。管理层对执行层的数据安全提出管理要求,并听取执行层关于数据安全执行情况和重大事项的汇报,形成管理闭环。监督层对管理层和执行层各自职责范围内的数据安全工作情况进行监督,并听取各方汇报,形成最终监督结论后同步汇报至决策层。
  • 人员能力 数据安全治理离不开相应人员的具体执行,人员的技术能力、管理能力等都影响到数据安全策略的执行和效果。因此,加强对数据安全人才的培养是数据安全治理的应有之义。组织需要根据岗位职责、人员角色,明确相应的能力要求,并从意识和能力两方面着手建立适配的数据安全能力培养机制。 意识能力培养方式。可以结合业务开展的实际场景,以及数据安全事件实际案例,通过数据安全事件宣导、数据安全事件场景还原、数据安全宣传海报、数据安全月活动等方式,定期为员工开展数据安全意识培训,纠正工作中的不良习惯,降低因意识不足带来的数据安全风险。 技术能力培养方式。一方面,构建组织内部的数据安全学习专区,营造培训环境,通过线上视频、线下授课相结合的方式,按计划、有主题的定期开展数据安全技能培训,夯实理论知识。另一方面,通过开展数据安全攻防对抗等实战演练,将以教学为主的静态培训转为以实践为主的动态培训,提高人员参与积极性,有助于理论向实践转化,切实提高人员数据安全技能。
  • 版本模式说明 为了实现灵活的资源配置并提供轻量化的数据治理能力,DataArts Studio对的版本模式进行了切换。 对于后续新购买的DataArts Studio,仅能选择按照新版本模式的版本进行购买,具体包含免费版、初级版、专家版和企业版版本。 对于切换前已购买的DataArts Studio,实例依然为旧版本模式的版本,具体包含初级版、基础版、高级版、专业版和企业版版本。 新版本模式相对于旧版本模式,价格门槛更低、资源拓展更加灵活,强力推荐您将已开通的旧版本模式手动升级至新版本模式,升级方法详见版本模式升级。版本模式升级过程及升级后,对功能、业务操作和运行均无任何影响。我们承诺在相同资源下,新版本模式价格更低。 关于新版本模式与旧版本模式相比的变化,详见表7。 表7 新旧版本模式对比 差异项 旧版本模式 新版本模式 提供的版本 初级版:数据集成+数据开发 基础版:数据集成+数据开发+数据治理 高级版:数据集成+数据开发+数据治理 专业版:数据集成+数据开发+数据治理 企业版:数据集成+数据开发+数据治理 免费版:数据集成( CDM 作业、离线作业)+数据开发 初级版:数据集成+数据开发 专家版:数据集成+数据开发+轻量数据治理 企业版:数据集成+数据开发+数据治理 免费版本 不支持。 支持。提供免费版本,以供试用。 轻量数据治理能力 不支持。除初级版外,均提供全功能数据治理能力,使用成本高。 支持。专家版提供轻量数据治理能力,满足中小企业数据治理需求。 支持的增量包 仅提供功能增量包: 批量数据迁移增量包 数据服务专享集群增量包 提供功能增量包和规格增量包(如何购买请参考购买DataArts Studio增量包,免费版不支持): 功能增量包: 批量数据迁移增量包 数据集成资源组增量包 数据服务专享集群增量包 规格增量包: 作业节点调度次数/天增量包 技术资产数量增量包 数据模型数量增量包 版本模式变更 支持升级到新版本模式。 不支持回退到旧版本模式。
  • 版本模式升级 对于已开通的旧版本模式实例,需要您手动将旧模式升级到新模式。模式升级的处理原则如下: 旧版本模式的初级版直接切换到新版本模式的初级版,功能体验、版本规格和计费标准均保持不变。 旧版本模式除初级版外的其他版本升级到新版本模式,为保证数据治理功能体验一致,会转换为新版本模式下的非标准企业版(与标准企业版的支持组件一致,但规格不同);同时版本规格相比旧模式有所提升,且计费标准不变或下降(如果计费标准下降,DataArts Studio会自动将后期使用时长的差价原路返回到您的付款账户中)。 因此,我们强力推荐您将已有DataArts Studio实例从旧模式升级为新模式。各版本切换前后的情况对比如图1所示。 图1 模式切换前后对比(费用仅做示意,实际收费以官网显示为准) 版本模式升级操作不可回退,升级过程及升级后对功能、业务操作和运行均无任何影响。值得注意的是,切换到新商业模式后,不再支持免费试用基础版。建议您通过体验活动进行功能试用。 如果您需要将旧版本模式升级为新版本模式,可以参考如下步骤进行操作: 参考访问DataArts Studio实例控制台,以华为账号、拥有DAYU Administrator或Tenant Administrator权限的用户登录DataArts Studio控制台。 从DataArts Studio控制台,进入DataArts Studio实例列表。 如果当前区域下有多个DataArts Studio实例,则默认进入实例列表。 如果当前区域下仅有一个DataArts Studio实例,则默认进入DataArts Studio控制台首页。您需要在旧版首页单击实例名右侧的,或在新版首页单击用户名下侧的,进入实例列表。 在需要升级版本模式的实例卡片上,找到“模式切换”按钮并单击进入模式切换界面。 图2 模式切换按钮 在模式切换界面,您可以看到当前旧版本模式切换前后的对比和询价情况。如果您确认切换,单击右下方“切换”按钮,随系统提示进行升级即可。 图3 模式切换 版本模式升级完成需要约5分钟,升级过程及升级后对功能、业务操作和运行均无任何影响。在切换成功后,如果计费标准有所下降,DataArts Studio会自动将后期使用时长的差价原路返回到您的付款账户中。升级完成后,则您可以基于新的版本模式继续使用DataArts Studio。
  • 版本规格说明(新版本模式) DataArts Studio新版本模式下包含免费版、初级版、专家版和企业版,各版本支持的组件组件功能不同,如表2所示。 表2 DataArts Studio版本支持的组件 DataArts Studio组件 免费版 初级版 专家版 企业版 数据集成(CDM作业) √ √ √ √ 数据集成(离线作业) √ √ √ √ 数据集成(实时作业) x √ √ √ 管理中心 √ √ √ √ 数据架构 x x x √ 数据开发 √ √ √ √ 数据质量 x x 支持,但不支持对账作业和质量报告。 √ 数据目录 x x 支持,但不支持通过管理中心资源迁移进行数据目录(分类、标签、采集任务)导出。 √ 数据服务 x x √ √ 数据安全 x x 基础数据安全特性 高级数据安全特性 其中,高级数据安全特性如表3所示,除此之外的数据安全能力均为基础数据安全特性。 表3 高级数据安全特性清单 能力模块 子能力模块 高级特性 内测/商用 访问权限管理 权限审批 申请字段权限 审批策略 有效期管理 权限通知 建库申请 建库审批 全网商用 权限应用 账号映射 未来表权限 全网商用 DataArts资源权限 一级目录权限 下载权限控制 全网商用 敏感数据识别 数据识别规则 组合规则 数据入湖检测规则 全网商用 敏感数据发现 推荐识别(入湖检测规则) 推荐识别(AI推荐识别) 文件内容敏感检测 北京四、上海一内测 隐私保护管理 脱敏策略 展示层脱敏策略 北京四、上海一内测 数据加密 密钥管理 文件加密 外部接口 北京四、上海一内测 数据安全运营 表权限报告 表权限视图 全网商用 成员权限视图 成员权限视图 全网商用 另外,DataArts Studio为不同版本配置了不同的使用规格,具体如表4所示。如果您在使用过程中因业务增长导致规格不足,则可在控制台页面购买规格增量包作为补充。 表4 DataArts Studio版本规格说明(单实例规格) DataArts Studio规格 免费版[5] 初级版 专家版 企业版 DataArts Studio数据集成集群[1] 赠送36小时cdm.large规格的CDM集群折扣套餐,需通过“ 云数据迁移 CDM”服务使用,详见CDM用户指南。 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 作业节点调度次数/天[2] 500次/天 5,000次/天 5,000次/天 5,000次/天 技术资产数量[3] 不支持 不支持 500 5000 数据模型数量[4] 不支持 不支持 不支持 100 注释: [1] DataArts Studio数据集成集群:DataArts Studio实例赠送的数据集成集群,推荐作为管理中心数据连接的Agent代理使用,不建议同时作为Agent代理和运行数据迁移作业使用。用于运行数据迁移作业的其他规格数据集成集群推荐通过“批量数据迁移增量包”进行购买(免费版需通过“云数据迁移 CDM”服务购买CDM集群),如何购买请参考购买批量数据迁移增量包。 [2] 作业节点调度次数/天:该规格是以每天执行的数据开发作业、质量作业、对账作业、业务场景和元数据采集作业的调度次数之和计算的,可以通过“作业节点调度次数/天增量包”进行扩容,如何购买请参考购买作业节点调度次数/天增量包。其中数据开发作业的每天调度次数,是以节点(包含Dummy节点)为粒度进行度量的,另外补数据、空跑、调度日历空跑也会计入度量次数,但测试运行、失败重试不会计入。例如某作业包含2个DWS SQL节点和1个Dummy节点,每天00:00开始执行,隔10小时调度一次,当天额外进行了过去10天的补数据,则该作业当天调度次数为2*3+2*3*10=66,后续每天调度次数为2*3=6。 另外,当作业节点调度的已使用次数+运行中次数+本日将运行次数之和大于此版本规格,执行调度批处理作业或者启动实时作业时就会提示作业节点调度次数/天超过配额。 [3] 技术资产数量:该规格指的是数据目录中表和OBS文件的数量,可以通过“技术资产数量增量包”进行扩容,如何购买请参考购买技术资产数量增量包。 [4] 数据模型数量:该规格指的是数据架构中逻辑模型、物理模型、维度表、事实表和汇总表的数量,可以通过“数据模型数量增量包”进行扩容,如何购买请参考购买数据模型数量增量包。 [5] 免费版:免费版定位于试用场景,每个账号在每个区域下仅能有一个免费版实例。使用免费版前,请您了解如下约定: 免费版不自带数据集成集群,而是首次购买时赠送36小时cdm.large规格的CDM集群折扣套餐,1年内有效。使用折扣套餐包时,您需要在“云数据迁移 CDM”服务创建一个与DataArts Studio实例区域一致的cdm.large规格集群,集群运行时会自动扣除折扣套餐包时长,折扣套餐包时长到期后需要删除此集群,否则会产生相关费用。关于CDM服务的计费详情可参见CDM用户指南。 免费版不支持购买增量包,例如无法购买批量数据迁移增量包或作业节点调度次数/天增量包。 免费版数据开发组件的脚本数和作业数的配额限制分别为20。 免费版仅用于试用场景,在业务负荷大的场景下,无法保证免费版实例上业务的正常运行。 免费版不支持通过API调用的方式使用,仅支持控制台方式使用。 免费版受成本、资源等因素限制,提供的总数量有限。当全网免费版数量超过限额时,将无法继续创建免费版实例。 免费版支持升级到其他付费版本。升级到其他版本或删除当前免费版实例后,您可以再次购买免费版,但不能再勾选“CDM套餐包”,折扣套餐仅在首次购买免费版时赠送。
  • 版本规格说明(旧版本模式) 表5 DataArts Studio版本支持的组件 DataArts Studio组件 初级版 基础版 高级版 专业版 企业版 数据集成(CDM作业) √ √ √ √ √ 数据集成(离线作业) √ √ √ √ √ 数据集成(实时作业) √ √ √ √ √ 管理中心 √ √ √ √ √ 数据架构 x √ √ √ √ 数据开发 √ √ √ √ √ 数据质量 x √ √ √ √ 数据目录 x √ √ √ √ 数据服务 x √ √ √ √ 数据安全 x √ √ √ √ 表6 DataArts Studio版本规格说明(单实例规格) DataArts Studio规格 初级版 基础版 高级版 专业版 企业版 DataArts Studio数据集成集群[1] 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.medium vCPUs/内存:4核 8GB 集群数量:1个 规格名称:cdm.large vCPUs/内存:8核 16GB 集群数量:1个 规格名称:cdm.xlarge vCPUs/内存:16核 32GB 集群数量:1个 规格名称:cdm.xlarge vCPUs/内存:16核 32GB 作业节点调度次数/天[2] 5,000次/天 20,000次/天 40,000次/天 80,000次/天 200,000次/天 技术资产数量[3] 不支持 1,000 2,000 4,000 10,000 数据模型数量[4] 不支持 1,000 2,000 4,000 10,000 注释: [1] DataArts Studio数据集成集群:DataArts Studio实例赠送的数据集成集群,由于规格限制,仅用于测试、试用等非正式业务场景。用于业务场景的数据集成集群可以通过“批量数据迁移增量包”进行购买,且不建议同时作为数据连接Agent代理和运行数据迁移作业使用。如何购买请参考购买批量数据迁移增量包。 [2] 作业节点调度次数/天:该规格是以每天执行的数据开发作业、质量作业、对账作业、业务场景和元数据采集作业的调度次数之和计算的。其中数据开发作业的每天调度次数,是以节点(包含Dummy节点)为粒度进行度量的,另外补数据、空跑也会计入度量次数,但测试运行、失败重试不会计入。例如某作业包含2个DWS SQL节点和1个Dummy节点,每天00:00开始执行,隔10小时调度一次,当天额外进行了过去10天的补数据,则该作业当天调度次数为2*3+2*3*10=66,后续每天调度次数为2*3=6。 另外,当作业节点调度的已使用次数+运行中次数+本日将运行次数之和大于此版本规格,执行调度批处理作业或者启动实时作业时就会提示作业节点调度次数/天超过配额。 [3] 技术资产数量:该规格指的是数据目录中表和OBS文件的数量。 [4] 数据模型数量:该规格指的是数据架构中逻辑模型、物理模型、维度表、事实表和汇总表的数量。
  • 版本场景概述 为了实现灵活的资源配置并提供轻量化的数据治理能力,DataArts Studio对版本模式进行了切换,关于切换前后的新旧版本模式说明详见版本模式说明。 对于后续新购买的DataArts Studio,仅能选择按照新版本模式的版本进行购买,具体包含免费版、初级版、专家版和企业版版本。 对于切换前已购买的DataArts Studio,实例依然为旧版本模式的版本,具体包含初级版、基础版、高级版、专业版和企业版版本。 新版本模式相对于旧版本模式,价格门槛更低、资源拓展更加灵活,强力推荐您将已开通的旧版本模式手动升级至新版本模式,升级方法详见版本模式升级。版本模式升级过程及升级后,对功能、业务操作和运行均无任何影响。我们承诺在相同资源下,新版本模式价格更低。 各版本的建议使用场景如表1所示。其中新版本模式的免费版定位于试用场景,仅包含DataArts Studio初级版功能,此处不再列出。 表1 DataArts Studio各版本建议使用场景 版本模式 版本 建议使用场景 新版本模式 初级版 建设初期数据湖项目,主要为大数据开发场景的数据ETL任务管理,不涉及数据治理。 专家版 中小企业规模,具备全职数据开发治理人员,需要轻量数据治理能力,如数据质量、数据目录和数据服务等,性价比首选。 企业版 有完善的数据管理团队和体系,中大型企业规模,需要进行企业信息架构、数据标准、数据模型、数据指标的落地,匹配完整的DAYU数据治理方法论。 旧版本模式 初级版 建设初期数据湖项目,无全职数据开发人员、不涉及数据治理。 基础版 拥有1~2名全职数据开发人员,原始数据规模小于1000张表。 高级版 拥有5~10名全职数据开发人员,有明确的数据标准、数据质量管理、数据规模小于2000张表。 专业版 有完善的数据管理团队和体系,拥有10~30名全职数据开发人员,中大型企业规模。 企业版 大型企业,多分支机构企业。
  • DataArts Studio控制台功能依赖的角色或策略 DataArts Studio服务各组件功能所需依赖服务的权限如表2所示。在实际授权场景中,推荐为开发者用户配置DataArts Studio服务级别的依赖服务最小权限(可参考如何最小化授权 IAM 用户使用DataArts Studio,为用户配置最小权限),开发者用户的最小依赖服务权限如表3所示。 在实际授权场景中,DAYU Administrator和DAYU User系统角色已经预置了依赖服务的管理员权限。为了避免普通用户/用户组被授予DAYU User系统角色导致其拥有的依赖服务权限过大的风险,您可以在为用户组授权DAYU User系统角色后,手动删除用户组的周边依赖权限,再为用户组授予所需依赖服务的最小权限合集。 表2 DataArts Studio控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 具体功能 管理中心 BSS bss:coupon:view bss:renewal:update bss:discount:view bss:order:view bss:order:pay bss:order:update 创建增量包或DataArts Studio实例 KMS kms:cmk:get kms:cmk:list kms:cmk:create kms:cmk:decrypt kms:cmk:encrypt kms:dek:create kms:dek:encrypt kms:dek:decrypt 创建数据连接时,使用KMS加解密 DWS dws:cluster:list dws:cluster:getDetail dws:openAPICluster:getDetail 创建DWS数据连接 MRS mrs:cluster:get mrs:cluster:list 创建MRS数据连接 VPC vpc:publicIps:get vpc:publicIps:list vpc:vpcs:get vpc:subnets:get 创建MRS数据连接 RDS rds:*:get rds:*:list 创建RDS数据连接 数据集成 VPC vpc:publicIps:get vpc:publicIps:list vpc:vpcs:get vpc:vpcs:list vpc:subnets:get vpc:securityGroups:get vpc:firewalls:list vpc:routeTables:list vpc:subNetworkInterfaces:list 创建CDM集群或DataArts Studio实例 E CS ecs:flavors:get ecs:cloudServerFlavors:get ecs:availabilityZones:list 创建CDM集群或DataArts Studio实例 CDM cdm:cluster:create 创建CDM集群 KMS kms:cmk:get kms:cmk:list kms:cmk:create kms:cmk:decrypt kms:cmk:encrypt kms:dek:create kms:dek:encrypt kms:dek:decrypt 创建数据连接时,使用KMS加解密 MRS mrs:cluster:get mrs:cluster:list mrs:job:get mrs:job:list 创建MRS数据连接 DWS dws:cluster:list dws:cluster:getDetail dws:openAPICluster:getDetail 创建DWS数据连接 CDM cdm:cluster:get cdm:cluster:list cdm:link:operate cdm:job:operate 通过CDM控制台操作时,需要CDM服务权限 CES ces:*:get ces:*:list 查看CES监控 CSS css:*:get css:*:list 创建CSS连接 CloudTable cloudtable:*:get cloudtable:*:list 创建CloudTable连接 RDS rds:*:get rds:*:list 创建RDS连接 Config rms:resources:list 创建CDM集群 数据开发 OBS obs:object:GetObject obs:object:PutObject obs:bucket:GetBucketLocation obs:bucket:ListAllMyBuckets obs:bucket:ListBucket obs:bucket:CreateBucket 运行脚本、运行作业以及备份作业 SMN smn:topic:publish smn:topic:list 作业通知 KMS kms:cmk:get kms:cmk:list kms:cmk:create kms:cmk:decrypt kms:cmk:encrypt kms:dek:create kms:dek:encrypt kms:dek:decrypt 创建数据连接时,使用KMS加解密 MRS mrs:cluster:get mrs:cluster:list mrs:job:submit mrs:job:delete mrs:job:stop mrs:sql:execute mrs:sql:cancel mrs:job:get mrs:job:list MRS类型作业节点运行: MRS Presto SQL、MRS Spark、MRS Spark Python、MRS Flink Job、 MRS MapReduce MRS Spark SQL、MRS Hive SQL DLI dli:queue:submitJob dli:jobs:create dli:jobs:update dli:jobs:get dli:jobs:list dli:jobs:listAll DLI类型作业节点运行: DLI SQL、DLI Spark OBS obs:object:GetObject obs:object:PutObject obs:object:DeleteObject obs:bucket:GetBucketLocation obs:bucket:ListAllMyBuckets obs:bucket:ListBucket obs:bucket:ListBucketVersions obs:bucket:CreateBucket obs:bucket:DeleteBucket OBS类型作业节点运行: Create OBS、Delete OBS、OBS Manager DWS dws:cluster:list dws:cluster:getDetail dws:openAPICluster:getDetail 创建DWS数据连接 CDM cdm:cluster:get cdm:cluster:list cdm:job:operate 数据连接需要Agent的相关脚本、作业,以及CDM作业运行: RDS SQL、DWS SQL、Hive SQL、SPARK SQL、Shell、Python CES ces:metricData:list 运维概览,查询DLI队列CPU GES ges:graph:access ges:graph:operate ges:graph:list ges:graph:getDetail ges:metadata:create ges:metadata:operate ges:metadata:delete ges:metadata:list ges:metadata:getDetail ges:jobs:list ges:jobs:getDetail Import GES作业节点运行 ECS ecs:servers:list ecs:servers:get ecs:servers:stop ecs:servers:start ecs:cloudServers:list Open/Close Resource作业节点运行,创建主机连接 DLI dli:queue:submitJob dli:queue:cancelJob dli:group:useGroup dli:group:getGroup dli:group:updateGroup dli:group:deleteGroup dli:group:listAllGroup dli:database:createDatabase dli:database:dropDatabase dli:database:displayDatabase dli:database:displayAllDatabases dli:database:explain dli:database:createView dli:database:createTable dli:database:displayAllTables dli:database:createFunction dli:database:describeFunction dli:database:showFunctions dli:database:dropFunction dli:table:select dli:table:update dli:table:delete dli:table:dropTable dli:table:describeTable dli:table:showCreateTable dli:table:showPartitions dli:table:showSegments dli:table:showTableProperties dli:table:insertOverwriteTable dli:table:insertIntoTable dli:table:compaction dli:table:truncateTable dli:table:alterView dli:table:alterTableRename dli:table:alterTableAddColumns dli:table:alterTableDropColumns dli:table:alterTableChangeColumn dli:table:alterTableSetLocation dli:table:alterTableAddPartition dli:table:alterTableRenamePartition dli:table:alterTableSetProperties dli:table:alterTableRecoverPartition dli:table:alterTableDropPartition dli:column:select dli:jobs:create dli:jobs:delete dli:jobs:start dli:jobs:stop dli:jobs:update dli:jobs:export dli:jobs:get dli:jobs:list dli:jobs:listAll dli:resource:useResource dli:resource:updateResource dli:resource:deleteResource dli:resource:getResource dli:resource:listAllResource dli:variable:update dli:variable:delete DLI类型作业/脚本运行 IAM iam:agencies:listAgencies 获取作业委托 DIS DIS Operator DIS User DIS类型作业节点运行: DIS Stream、DIS Dump、DIS Client SWR SWR Admin 仅当在数据开发组件作业中使用DLI Spark节点选择自定义镜像时,需要 容器镜像服务 中的镜像读取权限。 推荐通过镜像授权管理,添加所需镜像的读取权限。不推荐直接为用户授予SWR Admin系统角色, 可能存在权限过大的风险。 数据目录 OBS obs:object:GetObject obs:bucket:GetBucketStorage obs:bucket:GetBucketLocation obs:bucket:ListAllMyBuckets obs:bucket:ListBucket OBS元数据采集 DIS dis:streams:list dis:transferTasks:list DIS元数据采集 CSS css:cluster:list CSS元数据采集 GES ges:graph:list ges:graph:getDetail ges:metadata:list ges:metadata:getDetail GES元数据采集 DLI dli:database:displayDatabase dli:database:displayAllDatabases dli:table:select dli:table:describeTable dli:table:showPartitions dli:table:showTableProperties dli:jobs:create dli:jobs:get DLI元数据采集&数据概要分析 CDM cdm:cluster:list CSS元数据采集 数据质量 SMN smn:topic:publish smn:topic:list 配置作业通知 OBS obs:object:GetObject obs:object:PutObject obs:bucket:GetBucketLocation obs:bucket:ListAllMyBuckets obs:bucket:ListBucket obs:bucket:CreateBucket 导出质量报告 MRS mrs:job:submit mrs:sql:execute mrs:sql:cancel mrs:job:get MRS质量作业运行 DLI dli:queue:submitJob dli:jobs:get dli:jobs:listAll DLI质量作业运行 数据安全 DLI dli:queue:submitJob dli:queue:cancelJob dli:database:displayDatabase dli:database:displayAllDatabases dli:database:displayAllTables dli:table:describeTable dli:jobs:create dli:jobs:stop dli:jobs:get dli:resource:deleteResource dli:resource:getResource dli:resource:listAllResource DLI权限管控 DWS dws:cluster:list dws:cluster:getDetail dws:openAPICluster:getDetail DWS权限管控 MRS mrs:cluster:list mrs:job:submit mrs:job:stop MRS权限管控 KMS kms:cmk:list kms:cmk:encrypt kms:cmk:decrypt 使用KMS加解密 CDM 任意cdm权限,例如cdm:cluster:get DWS和MRS权限管控 表3 开发者用户的依赖服务最小权限合集 权限类型 角色与策略权限-系统角色 角色与策略权限-自定义策略 角色与策略权限-自定义策略 是否必配 必配 必配 必配 权限 DIS Operator DIS User (可选,不推荐)SWR Admin 说明: 仅当在数据开发组件作业中使用DLI Spark节点选择自定义镜像时,需要容器 镜像服务 中的镜像读取权限。 推荐通过镜像授权管理,添加所需镜像的读取权限。不推荐直接为用户授予SWR Admin系统角色, 可能存在权限过大的风险。 依赖的全局级(global级)云服务的自定义策略DataArtsStudio_PermissionsOfDependentServices_global: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "obs:object:GetObject", "obs:object:PutObject", "obs:object:DeleteObject", "obs:bucket:GetBucketStorage", "obs:bucket:GetBucketLocation", "obs:bucket:ListAllMyBuckets", "obs:bucket:ListBucket", "obs:bucket:ListBucketVersions", "obs:bucket:CreateBucket", "obs:bucket:DeleteBucket", "rms:resources:list", "iam:agencies:listAgencies" ] } ] } 依赖的项目级(region级)云服务的自定义策略DataArtsStudio_PermissionsOfDependentServices_region: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "cdm:cluster:get", "cdm:cluster:list", "cdm:cluster:create", "cdm:link:operate", "cdm:job:operate", "ces:*:get", "ces:*:list", "cloudtable:*:get", "cloudtable:*:list", "css:*:get", "css:*:list", "dis:streams:list", "dis:transferTasks:list", "dli:queue:submitJob", "dli:queue:cancelJob", "dli:table:insertOverwriteTable", "dli:table:insertIntoTable", "dli:table:alterView", "dli:table:alterTableRename", "dli:table:compaction", "dli:table:truncateTable", "dli:table:alterTableDropColumns", "dli:table:alterTableSetProperties", "dli:table:alterTableChangeColumn", "dli:table:showSegments", "dli:table:alterTableRecoverPartition", "dli:table:dropTable", "dli:table:update", "dli:table:alterTableDropPartition", "dli:table:alterTableAddPartition", "dli:table:alterTableAddColumns", "dli:table:alterTableRenamePartition", "dli:table:delete", "dli:table:alterTableSetLocation", "dli:table:describeTable", "dli:table:showPartitions", "dli:table:showCreateTable", "dli:table:showTableProperties", "dli:table:select", "dli:resource:updateResource", "dli:resource:useResource", "dli:resource:getResource", "dli:resource:listAllResource", "dli:resource:deleteResource", "dli:database:explain", "dli:database:createDatabase", "dli:database:dropFunction", "dli:database:createFunction", "dli:database:displayAllDatabases", "dli:database:displayAllTables", "dli:database:displayDatabase", "dli:database:describeFunction", "dli:database:createView", "dli:database:createTable", "dli:database:showFunctions", "dli:database:dropDatabase", "dli:group:useGroup", "dli:group:updateGroup", "dli:group:listAllGroup", "dli:group:getGroup", "dli:group:deleteGroup", "dli:column:select", "dli:jobs:start", "dli:jobs:export", "dli:jobs:update", "dli:jobs:list", "dli:jobs:listAll", "dli:jobs:get", "dli:jobs:delete", "dli:jobs:create", "dli:jobs:stop", "dli:variable:update", "dli:variable:delete", "dws:cluster:list", "dws:cluster:getDetail", "dws:openAPICluster:getDetail", "ecs:servers:get", "ecs:servers:list", "ecs:servers:stop", "ecs:servers:start", "ecs:flavors:get", "ecs:cloudServerFlavors:get", "ecs:cloudServers:list", "ecs:availabilityZones:list", "ges:graph:access", "ges:metadata:create", "ges:jobs:list", "ges:graph:operate", "ges:jobs:getDetail", "ges:graph:getDetail", "ges:graph:list", "ges:metadata:list", "ges:metadata:getDetail", "ges:metadata:delete", "ges:metadata:operate", "kms:cmk:get", "kms:cmk:list", "kms:cmk:create", "kms:cmk:decrypt", "kms:cmk:encrypt", "kms:dek:create", "kms:dek:encrypt", "kms:dek:decrypt", "mrs:cluster:get", "mrs:cluster:list", "mrs:job:get", "mrs:job:list", "mrs:job:submit", "mrs:job:stop", "mrs:job:delete", "mrs:sql:execute", "mrs:sql:cancel", "rds:*:get", "rds:*:list", "smn:topic:publish", "smn:topic:list", "vpc:publicIps:list", "vpc:publicIps:get", "vpc:vpcs:get", "vpc:vpcs:list", "vpc:subnets:get", "vpc:securityGroups:get", "vpc:firewalls:list", "vpc:routeTables:list", "vpc:subNetworkInterfaces:list" ] } ] }
  • DataArts Studio权限 默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 DataArts Studio部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问DataArts Studio时,需要先切换至授权区域。 DataArts Studio仅支持基于系统角色的授权,不支持策略授权。为了实现精细的权限管控,DataArts Studio提供了系统角色+工作空间角色授权的能力,由工作空间角色授权具体的操作权限,并支持自定义不同权限点的工作空间角色。 IAM提供了以下两种授权机制。注意,DataArts Studio仅支持其中的IAM角色方式,不支持IAM策略。 IAM角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。传统的IAM角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 IAM策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。 如图1和表1所示,DataArts Studio的IAM系统角色包括DAYU Administrator、DAYU User和DataArts Studio User;工作空间角色是基于IAM角色DAYU User或DataArts Studio User进一步授予的,权限列表列出了DataArts Studio常用操作与工作空间角色的授权关系,您可以参照这些权限列表选择合适的角色。 图1 权限体系 表1 DataArts Studio系统角色 系统角色名称 描述 类别 DAYU Administrator 实例管理员,拥有对DataArts Studio实例及工作空间的所有管理权限、依赖服务权限,以及所有工作空间内的所有业务操作权限。 说明: Tenant Administrator具有除 统一身份认证 服务外,其他所有服务的所有执行权限。即Tenant Administrator权限的用户也拥有对DataArts Studio的所有执行权限。 系统角色 DAYU User 普通用户,具备DataArts Studio实例及工作空间的查看权限,以及依赖服务权限。普通用户需要被授予任一工作空间角色后,才能拥有对应角色的业务操作权限。 工作空间有管理员、开发者、部署者、运维者和访客五种预置角色和自定义角色,每种角色的介绍如下,具体操作权限请参见权限列表。 管理员:工作空间管理员,拥有工作空间内所有的业务操作权限。建议将项目负责人、开发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客可以查看工作空间内的数据,但无法操作业务。建议将只查看空间内容、不进行操作的用户设置为访客。 部署者:企业模式独有,具备工作空间内任务包发布的相关操作权限。在企业模式中,开发者提交脚本或作业版本后,系统会对应产生发布任务。开发者确认发包后,需要部署者审批通过,才能将修改后的作业同步到生产环境。 自定义角色:如果预置角色不能满足您的需求,您也可以创建自定义角色。自定义角色的权限可自由配置,实现业务操作权限最小化。 系统角色 DataArts Studio User 普通用户,具备DataArts Studio实例及工作空间的查看权限,但不具备依赖服务权限。普通用户需要被授予依赖服务权限+任一工作空间角色后,才能拥有对应角色的业务操作权限。 依赖服务权限详见表2。 工作空间有管理员、开发者、部署者、运维者和访客五种预置角色和自定义角色,每种角色的介绍如下,具体操作权限请参见权限列表。 管理员:工作空间管理员,拥有工作空间内所有的业务操作权限。建议将项目负责人、开发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客可以查看工作空间内的数据,但无法操作业务。建议将只查看空间内容、不进行操作的用户设置为访客。 部署者:企业模式独有,具备工作空间内任务包发布的相关操作权限。在企业模式中,开发者提交脚本或作业版本后,系统会对应产生发布任务。开发者确认发包后,需要部署者审批通过,才能将修改后的作业同步到生产环境。 自定义角色:如果预置角色不能满足您的需求,您也可以创建自定义角色。自定义角色的权限可自由配置,实现业务操作权限最小化。 系统角色
  • 访问控制 您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全地控制华为云资源的访问。关于IAM的详细介绍,请参见IAM产品介绍。 DataArts Studio仅支持基于系统角色的授权,不支持策略授权。为了实现精细的权限管控,DataArts Studio提供了系统角色+工作空间角色授权的能力,由工作空间角色授权具体的操作权限,并支持自定义不同权限点的工作空间角色。 如图1和表1所示,DataArts Studio的IAM系统角色包括DAYU Administrator、DAYU User和DataArts Studio User;工作空间角色是基于IAM角色DAYU User或DataArts Studio User进一步授予的,权限列表列出了DataArts Studio常用操作与工作空间角色的授权关系,您可以参照这些权限列表选择合适的角色。 图1 权限体系 表1 DataArts Studio系统角色 系统角色名称 描述 类别 DAYU Administrator 实例管理员,拥有对DataArts Studio实例及工作空间的所有管理权限、依赖服务权限,以及所有工作空间内的所有业务操作权限。 说明: Tenant Administrator具有除统一身份认证服务外,其他所有服务的所有执行权限。即Tenant Administrator权限的用户也拥有对DataArts Studio的所有执行权限。 系统角色 DAYU User 普通用户,具备DataArts Studio实例及工作空间的查看权限,以及依赖服务权限。普通用户需要被授予任一工作空间角色后,才能拥有对应角色的业务操作权限。 工作空间有管理员、开发者、部署者、运维者和访客五种预置角色和自定义角色,每种角色的介绍如下,具体操作权限请参见权限列表。 管理员:工作空间管理员,拥有工作空间内所有的业务操作权限。建议将项目负责人、开发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客可以查看工作空间内的数据,但无法操作业务。建议将只查看空间内容、不进行操作的用户设置为访客。 部署者:企业模式独有,具备工作空间内任务包发布的相关操作权限。在企业模式中,开发者提交脚本或作业版本后,系统会对应产生发布任务。开发者确认发包后,需要部署者审批通过,才能将修改后的作业同步到生产环境。 自定义角色:如果预置角色不能满足您的需求,您也可以创建自定义角色。自定义角色的权限可自由配置,实现业务操作权限最小化。 系统角色 DataArts Studio User 普通用户,具备DataArts Studio实例及工作空间的查看权限,但不具备依赖服务权限。普通用户需要被授予依赖服务权限+任一工作空间角色后,才能拥有对应角色的业务操作权限。 依赖服务权限详见表2。 工作空间有管理员、开发者、部署者、运维者和访客五种预置角色和自定义角色,每种角色的介绍如下,具体操作权限请参见权限列表。 管理员:工作空间管理员,拥有工作空间内所有的业务操作权限。建议将项目负责人、开发责任人、运维管理员设置为管理员角色。 开发者:开发者拥有工作空间内创建、管理工作项的业务操作权限。建议将任务开发、任务处理的用户设置为开发者。 运维者:运维者具备工作空间内运维调度等业务的操作权限,但无法更改工作项及配置。建议将运维管理、状态监控的用户设置为运维者。 访客:访客可以查看工作空间内的数据,但无法操作业务。建议将只查看空间内容、不进行操作的用户设置为访客。 部署者:企业模式独有,具备工作空间内任务包发布的相关操作权限。在企业模式中,开发者提交脚本或作业版本后,系统会对应产生发布任务。开发者确认发包后,需要部署者审批通过,才能将修改后的作业同步到生产环境。 自定义角色:如果预置角色不能满足您的需求,您也可以创建自定义角色。自定义角色的权限可自由配置,实现业务操作权限最小化。 系统角色
  • 分析性能瓶颈 通过查看内存、反压等监控性能指标,确定性能下降的原因,以及瓶颈位于源端还是目的端。 图3 通过监控指标分析性能瓶颈 内存占用100% 当作业的内存占用达到100%时,意味着内存资源不足,需要扩大作业的内存配置或降低对内存的需求。 内存使用率达到100%时的实时作业监控指标: 图4 作业内存耗尽时的监控指标状态 图5 作业内存排查与调优策略 针对内存问题,优先通过增加任务配置中的并发数来解决,增加并发可减轻每个taskmanager上的内存压力。 增大并发后如果内存占用率仍比较大,可以根据不同的链路做组件级的参数调优,详情请参考各个链路的参数调优介绍,包括: 减小数据缓存的大小和时间。 加快缓存数据的flush速度。 对目的端的表结构进行优化,以提高写入性能。 增加单个taskmanager的处理内存,注意不要造成Migration资源组的资源使用率统计不准确。 对读写速率限流,适合数据量不大对作业稳定性需求较高的场景。 特殊场景: 监控指标显示内存使用率正常,但是日志中搜索到关键字OutOfMemery或OOMKilled,同样可以判断为内存不足场景。 虽然监控指标显示内存使用率正常,但日志中发现OutOfMemory或OOMKilled关键字,同样认为是内存不足。 分库分表场景下,如果源端数据库实例或分表数据过大,可能会导致jobmanager内存占用满,通过设置参数jobmanager.memory.process.size = 6G来即时扩展jobmanager节点内存。 作业持续反压100 长时间作业反压100%,表明可能是目的端写入性能瓶颈,原因可能为: 作业目的端配置或者建表不合理,性能仍有优化空间。 目的端集群压力过大。 图6 作业反压调优策略 图7 正常反压监控图 图8 作业反压持续100监控图 针对作业配置或建表不合理的场景,可以参考各个链路参数调优指导中关于目的端的介绍。 针对目的端集群压力较大的场景需要及时联系目的端数据库运维或开发者调整集群状态。 作业反压正常(binlog激增) 作业反压正常可能为源端抽取性能瓶颈,大部分场景为业务量上涨导致源端binlog激增。部分作业会存在网络问题导致数据抽取速率不足,时延上升。 源端binlog激增时的MySQ L实例 监控: 图9 binlog激增MySQL监控图-1 图10 binlog激增MySQL监控图-2 单小时内binlog文件个数增长破百。 源端binlog文件激增时,需要及时进行以下操作: 调大实时作业并发,避免目的端写入成为瓶颈,导致源端抽取压力。 调大taskmanager堆内存,避免数据量过大作业异常。 在任务配置中添加参数: taskmanager.memory.managed.fraction = 0(默认0.2) taskmanager.memory.process.size = 4G(默认不足4G) 适时将时延较大的表从实时作业中拆分出去,通过离线迁移完成大表的数据迁移。
  • 初步分析与调试 图1 性能调优初步分析与调试 由于全量阶段的数据量较大,需要更高的并发资源。当全量阶段同步速率较低时,请优先通过增加任务并发来解决。全量阶段完成后,可以暂停作业回调资源。如果上述措施对提升同步效率效果不明显,可进一步分析性能瓶颈,详情请参见分析性能瓶颈部分。 当增量阶段同步速率慢或时延增加时,首先观察监控指标或作业告警中是否有作业重试。作业重试可能阻塞数据同步进程,导致时延上升,需通过查看作业日志找到并解决作业重试问题。 图2 作业监控指标显示作业近期存在重试 增量阶段如果没有作业重试但同步效率仍低,则需进一步分析性能瓶颈,详情请参见分析性能瓶颈部分。