华为云用户手册

  • 数据分布梳理 数据分布指的是数据在不同的存储系统、节点或位置之间的分布情况。了解数据在哪里存储,如何分布,以及分布情况的变化对数据处理、查询性能和数据安全都非常重要。 在数据资产目录中记录数据的分布信息可以帮助数据使用者更好地了解数据的物理存储位置。这对于查询性能优化很有帮助,使用者可以根据数据分布情况选择更合适的查询方式。此外,了解数据存储位置也有助于数据的隐私和安全管理 在数据流程目录中了解数据的分布情况非常重要。如果数据在不同的节点上分布,数据流程需要考虑如何处理数据移动和传输。避免不必要的数据复制和传输可以提高流程的效率,并减少资源开销。同时,了解数据分布还可以影响数据转换和处理步骤的设计,尽量减少性能问题。 综上所述,数据分布在数据管理中具有重要的影响,涉及到性能、安全性和一致性等多个方面。了解数据分布情况,能够更好地优化数据的使用、处理和流程,并确保数据的质量和安全性。
  • 数据模型设计 DataArts Studio 数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于 数据治理 流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 DataArts Studio数据架构建议的数据分层如下 SDI (Source Data Integration),又称贴源数据层。SDI是源系统数据的简单落地。 DWI (Data Warehouse Integration),又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 DWR (Data Warehouse Report),又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。 DM (Data Mart),又称数据集市。DM面向展现层,数据有多级汇总。 华为方法论示意图,如下: 图5 华为方法论示意图
  • 数据质量设计 随着数据类型、数据来源的不断丰富以及数据量的飞速增长,企业面临数据质量问题的概率显著增加。数据质量是一个复杂问题,往往是多种因素综合作用的结果,解决数据质量问题要从机制、制度、流程、工具、管理等多个方面发力。 ISO8000定义:从语法、语义、语用三个方面去定义和衡量数据质量 图6 数据质量设计 企业数据来源于多个不同的业务系统,数据流转、处理环节多,用“Garbage in Garbage out”原则保证数据质量已成为数字化转型企业的共识。企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开,有机结合形成联动。华为数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述。 完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。 及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。 准确性:指真实、准确地记录原始数据,无虚假数据集信息。数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息一致。 一致性:指遵循同一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。 唯一性:指同一数据智能有位移的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。 有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。
  • 指标数据梳理 指标数据是指按照确定的计算逻辑,基于交易数据或主数据的一个或多个数据项值加工得到的新数据项,一般由指标名 、指标值、统计口径、指标阈值等组成,又称衍生数据。通过指标数据的标准化,可以统一组织各部门对于指标的理 解,有利于提升统计分析的数据质量。 根据调研报告、IT 系统数据调研表和数据探查结果,明确指标数据的业务用途和目标,确定与目标相关的关键业务指标,如销售额、来客数、经营天数等,进行详细的需求分析,形成需求分析文档:需求指标确认清单(原子指标、衍生指标、复合指标)、指标口径确认清单(业务过程、度量、维度),如下图: 图4 指标数据梳理
  • 业务指标设计 业务指标是用于度量和评估组织或业务活动绩效的衡量标准。它们是量化的、可衡量的数据点,用于衡量业务的成功、进展和表现。业务指标通常用来帮助组织了解其绩效状况,监控趋势,做出决策和制定战略。 设计有效的业务指标是一个关键的过程,它需要深入了解业务需求、关键绩效指标以及如何从数据中衡量这些指标。以下是设计业务指标的一般步骤 理解业务目标: 首先,深入了解组织的业务目标、战略和重要驱动因素。与业务领导和相关团队交流,确保理解业务的核心需求和关注点 确定关键绩效指标(KPIs): 从业务目标中识别出关键的绩效指标,这些指标能够最直接地反映业务的成功。关键绩效指标应该能够定量地衡量业务的核心结果 SMART目标设置: 为每个绩效指标设置SMART目标,确保它们具有明确的特定性、可衡量性、可实现性、相关性和时限性。这有助于确保指标是具体且有意义的 选择适当的度量单位: 为每个指标选择适当的度量单位,如货币、百分比、数量等,以便进行比较和分析 建立度量标准: 为每个指标定义不同层次的表现标准,例如“优秀”、“良好”、“一般”等。这有助于评估业务绩效 数据源和计算逻辑: 确定每个指标的数据来源,以及如何从底层数据计算或聚合出指标。清楚指标的计算逻辑是确保其准确性的关键 数据质量和一致性: 确保指标所使用的数据源具有高质量和一致性。数据的准确性对于有效的指标分析至关重要 时效性和更新频率: 考虑指标的时效性和更新频率。有些指标可能需要实时更新,而其他指标可以更适合定期更新 与业务团队合作: 与业务团队保持紧密合作,确保指标设计与业务需求保持一致,并及时进行反馈和调整 持续改进: 定期审查和更新指标设计,以确保其仍然适用于不断变化的业务环境
  • 数据资产目录设计 随着数字化转型的推进,企业面临着越来越大的复杂的数据资源,在信息爆炸的背景下,企业内部的数据往往分散在各种系统的部门中,导致数据孤岛现象,造成数据的冗余和低效利用,同时数据管理和治理面临着越来越严峻的挑战。为有效应对这些问题,通过资产的目录的梳理,建立一个全面的、统一和可视的数据资产清单,涵盖企业内部所有数据资源。资产目录将为数据管理和治理提供基础,帮助企业更好地优化数据使用、共享和流转,降低数据管理的复杂性。 信息架构(Information Architecture):企业级信息架构是以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。 数据资产目录是一个组织或企业中用于管理和组织数据资产的结构化文档或系统。它记录了组织内部存在的各种数据资产,包括但不限于数据库、数据集、文件、报告、元数据等信息。数据资产目录的主要目的是为了帮助组织更有效地管理、控制和利用其数据资源。 数据资产目录有如下作用: 数据资产清单:资产目录提供了企业内部所有数据资产的全面清单,包括数据库、表、文件等。它帮助组织了解所有数据资产的属性、用途、所属部门和数据血缘关系,为数据资产提供统一的视图和描述 数据管理和治理:资产目录为数据管理和治理提供了基础。通过明确数据资产的归属、负责人和使用规则,资产目录帮助企业更好地管理数据资源,减少数据冗余和重复存储,提高数据质量和安全性 数据流程优化:资产目录揭示了数据资产之间的关联和流转路径,帮助企业优化数据流程和数据使用。它使数据流程更加高效,减少数据的滞留和延误,提升数据使用的效率和价值 数据决策支持:通过资产目录,企业能够更准确地了解数据资源,从而做出更准确的数据驱动决策。它为业务洞察和智能决策提供依据,推动业务增长和竞争优势 数字化转型基础:资产目录是数字化转型的基础设施之一。它帮助企业在数字化转型过程中优化业务流程,提升数字化能力,实现业务模式的创新和提高竞争力 数据合规和隐私保护:通过资产目录,企业能够更好地管理和控制敏感数据,确保数据的合规性和隐私保护,降低数据泄露和安全风险
  • 数据标准设计 数据标准(Data Standards)是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。 数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,是对数据的名称、含义、结构、取值等信息的统一定义和规范,以达成对数据的业务理解、技术实现的一致。 数据标准管理是指数据标准的制定和实施的一系列活动,包括明确组织职责和制度规范、构建工具、制标和落标等。通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供管理依据。 数据标准是进行数据标准化的主要依据,通过数据标准化,有利于拉通数据,有效提升业务效率和数据质量、促进数据共享。 提升业务效率:数据标准统一了业务语言,明确了业务规则,规范了业务处理过程,从而提升组织整体业务效率,满足管理决策对信息及时性的要求。 提升数据质量:数据标准明确了数据填写及处理要求,规范了数据源的格式,同时提供了管控方面的保障,因此数据标准将直接提高数据质量。 促进数据共享:数据标准统一了各类系统的数据定义,降低了系统间集成的复杂度,提高了系统间交换效率,并为管理分析系统提供了一致的分析指标和分析维度定义。
  • 分层Mapping设计 在 数据仓库 和ETL(抽取、转换、加载)领域中,"mapping" 指的是一种规则和逻辑的集合,用于描述如何从源数据抽取、转换和加载到目标数据仓库中的过程。映射定义了源系统中的数据如何映射到目标系统中,以满足数据仓库的数据需求和分析目标。 做Mapping的目的如下: 数据转换: 数据从源系统到数据仓库的过程中,往往需要进行各种数据转换,包括单位转换、日期格式标准化、数据清洗、计算等。编写映射可以明确这些转换规则,确保数据在转换过程中的准确性和一致性 数据整合: 数据仓库通常集成来自多个不同源系统的数据,这些数据可能具有不同的格式和结构。编写映射可以将这些不同的数据整合到一个统一的数据模型中,以便进行分析和报告 数据质量: 数据质量是数据仓库的关键因素之一。编写映射时,可以实施数据清洗、去重、标准化等步骤,从而提高数据的质量,减少错误和不一致性 业务逻辑应用: 在数据仓库中,可能需要应用特定的业务逻辑,例如计算指标、创建层级等。通过编写映射,可以确保这些业务逻辑在数据加载过程中得到正确的应用 性能优化: 编写映射时,可以考虑性能问题,使用合适的索引、分区等方法,以提高数据加载和查询性能 文档和可维护性: 编写映射规则和逻辑可以帮助团队成员理解数据转换和加载的过程。这些文档可以作为日后维护和调整的参考 可复用性: 编写映射可以将数据转换规则和逻辑进行抽象和封装,从而实现可复用性,减少重复劳动
  • 技术指标设计 业务指标用于指导技术指标,用于定义指标的设置目的、计算公式等,并不进行实际运算,可与技术指标进行关联。而技术指标是对业务指标的具体实现,定义了指标如何计算。在华为的数据治理方法论中,技术指标直接关联到业务目标,通过将业务需求翻译为可操作的技术指标,确保数据质量和系统性能达到支持业务决策和运营的水平。这种转化过程将抽象的业务需求转变为具体的度量标准,如数据准确性、数据完整性、数据可用性等,以此来量化业务的影响。这种紧密的关联确保了技术指标的有效性,从而为数据质量的实际提升提供了清晰的路径。通过业务指标与技术指标之间的相互转化,华为能够更加有针对性地设计和执行数据治理策略,实现数据对业务的支持和驱动。 根据华为数据治理方法论,技术指标包含:原子指标,衍生指标,复合指标: 原子指标=业务 + 业务过程 + 度量 衍生指标=修饰词 + 业务规则 + 原子指标 复合指标=计算规则 + 衍生指标 / 原子指标
  • 数据管理成熟度评估 数据管理成熟度评估是一种基于能力成熟度模型框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。成数据管理成熟度模型通过描述各阶段能力特点来定义成熟度的级别。当一个组织满足某阶段能力特征时,就可以评估其成熟度等级,并制订一个提高能力的计划。它还可以帮助组织在等级评估的指导下进行改进,与竞争对手或合作伙伴进行比较。在每一个新等级,能力评估会变得更加一致、可预测和可靠。 数据管理成熟度评估将组织内部数据能力划分为数据政策与流程、数据组织、数据标准、数据架构、数据应用、数据质量、主数据、元数据管理、数据安全等9大能力域。每个能力域下面又分为不同的子能力域,共计28个子能力域;每个评估细项按照5个等级模型进行评估,综合平均后计算出整体数据管理成熟度。数据管理成熟度评估成熟度评估等级如下: 图2 评估等级 数据管理成熟度评估对企业有巨大的意义: 准确把握现状:通过数据管理成熟度评估对组织数据管理的现状进行全面分析,总结当前数据管理工作的优势和劣势 明确建设方向:通过数据管理成熟度评估明确数据治理的薄弱项以及和业界标杆的差距,结合企业数字化发展需求,识别亟待完善的数据管理能力,明确数据管理工作的建设方向 持续提升管理水平:将评估结果纳入企业数字化转型考核评价体系,定期对组织及其下属单位进行评价考核,实现数据管理能力持续提升
  • 数据现状调研 调研目的 除了对客户进行业务调研外,数据管理实施专业服务在前期还需要进行数据调研,目的在于了解客户当前数据的质量、一致性、可信度和可用性。以某零售行业客户为例,具体的调研目标可能包括以下几个方面: 了解客户整体数据资产及其关系:通过调研,可以深入探究客户不同业务系统间的数据资产,并揭示数据之间的相关性和相互影响。 识别并改进数据质量问题:调研过程能够识别客户的数据质量问题,包括数据准确性、完整性、时效性等,并针对这些问题提出具体的改进措施。 评估数据治理成熟度:通过对组织的数据治理能力进行深入评估,确保公司的数据管理能力符合不断复杂化和快速变化的市场需求,以及相关的法律法规要求。 明确数据治理的目标与策略:通过数据调研,帮助确定客户的数据治理目标和策略,涵盖数据采集、处理、存储、分析等各个方面的具体需求和目标。 调研方式 数据调研的方式涵盖访谈交流、数据探查、实地考察、集体研讨等多种方法,用以深入了解客户的数据现状。以某零售行业客户为例,数据调研的具体内容包括: 访谈交流: 通过有针对性的沟通了解数据现状,调研对象分为: 研发侧人员:深入了解整体数据体系、主数据、数据性能、数据质量和数据标准现状,收集相关数据问题。 业务侧人员:与运营和门店店主沟通,以理解业务对数据的需求,并提出针对性建议。 数据探查:包括数据血缘和数据质量探查,涉及系统间调用、作业依赖、存储过程依赖、数据表关系、代码字段、数据一致性、数据完整性和数据准确性等方面的分析。 实地考察:实地考察客户总部办公大楼和门店,与不同岗位的人员深入交流,了解各方面的核心诉求。 集体研讨:包括调研会议、赋能会议、联合周例会等,确保项目的协同和效率。 整体调研不仅需要借鉴华为的数据治理实践经验,同时也要参考国内外广泛应用的管理体系,旨在为深入理解客户的数据现状和解决存在的问题提供坚实的支持。这样全面而系统的调研方法确保了项目的专业性和实用性,对客户的持续发展具有积极推动作用。
  • 业务现状调研 调研目的 一般情况下,数据管理实施专业服务开展工作的第一步都是从调研开始的。考虑到数据使能方案往往需要拉通业务与IT,因此调研工作需要并行向业务和数据开展。本章节先讲解业务调研。 业务调研的目的在于深入了解客户的核心业务流程、需求、挑战和目标,以某零售行业客户为例,具体的调研目标可能包括以下几个方面: 分析客户的核心业务流程和组织结构,理解客户的业务模式。 识别业务中的关键挑战和机会,为业务优化提供方向。 明确业务目标和战略方向,为业务增长提供支持。 调研方式 业务调研的方式涵盖访谈交流、现场观察、市场分析和竞争对手研究等多种方法,用以深入了解客户的业务现状。以某零售行业客户为例,具体内容可能包括: 访谈交流: 通过有针对性的沟通了解业务现状,调研对象分为: 管理层人员:深入了解客户企业战略和发展方向,理解客户在当前市场中的定位和竞争态势,了解客户的组织结构与管理流程等。 业务侧人员:调研客户日常业务的流程和效率,了解客户业务当前的需求,以及周边对客户产品或服务的满意度。 实地考察:实地考察参观客户的零售门店或工厂,观察实际运营流程。与不同岗位的人员深入交流,了解各方面的核心诉求。 市场分析:通过市场报告、行业分析等方式,了解客户相关的市场趋势、竞争态势;分析主要竞争对手的业务模式和战略,评估客户在市场中的地位。 集体研讨:包括调研会议、赋能会议、联合周例会等,确保多方面的信息汇聚达成一致。
  • 源系统数据库表盘点 在数据现状调研过程中,需要对源系统数据库表进行盘点,来实现以下几个目的: 了解客户的数据资产。通过盘点清楚地知道客户拥有哪些数据库、表、字段等数据资产,以便为客户提供相关的数据服务。 分析数据资产的状态。通过分析源端系统库表的结构、属性、关系等,可以了解数据资产的完整性、一致性等状态,有利于后续的数据整合和应用。 识别数据重合和冗余。通过比较不同源端系统库表之间的结构和内容,可以识别出数据重合和冗余的情况,为后续的数据整合提供依据。 评估数据质量。通过对源端系统库表的内容和结构进行审查,可以初步评估数据的质量,识别缺失和错误的数据。 确定数据整合和迁移方案。了解源端系统库表的情况,可以帮助确定最佳的数据库整合和数据迁移方案,以实现数据的同源共享。 为数据应用提供依据。了解源端系统库表的详细情况,可以为后续的数据分析和应用提供依据,帮助构建有效的数据模型和架构。 在盘点动作执行前,需要客户提供所要盘点的数据库IP地址、数据库端口号、数据库名称以及至少有源库表和视图只读权限的账号。 对源系统盘点的方法有很多,例如Haydn平台交付中心的探源功能,可以通过配置相应的探源规则,对待集成的源端系统数据进行探源,方便用户快速获取到要进行数据实施的源系统数据结构,且支持基于探源结果生成入湖清单。
  • 数据应用集成设计与实施 图1 数据应用集成设计与实施 数据应用集成设计与实施作为数据管理实施专业服务中的一个非必选项,主要面向客户数据消费场景多,IT能力弱的场景提供服务。工作内容包括数据应用集成实施和数据应用内容开发,将多个数据应用进行打通组合,或针对特定业务场景进行报表设计与开发。这部分工作偏向于IT侧和业务应用侧,不属于数据平台上线的必要条件。 数据应用集成实施: 数据应用集成实施的目标是将多个数据应用进行打通组合,以实现数据的无缝流动和共享。这涉及到将不同的数据应用系统进行整合,确保它们能够相互协作,实现数据的互通。通过数据应用集成实施,企业可以消除数据孤岛,提高数据的可访问性和可用性,从而更好地支持业务决策和运营。 数据应用集成实施还包括针对特定业务场景的报表设计与开发。通过深入了解客户的业务需求和数据消费场景,数据应用集成团队可以设计和开发定制化的报表,以满足客户对数据分析和可视化的需求。这些报表可以帮助客户更好地理解和利用数据,支持业务决策和业务优化。 需要注意的是,数据应用集成实施更偏向于IT侧和业务应用侧,而不是数据平台上线的必要条件。它主要关注数据的整合和应用,以提供更好的数据支持和业务价值。因此,在数据应用集成实施过程中,需要密切协作的是IT团队、业务应用团队和数据管理团队,以确保数据的有效集成和应用。 综上所述,数据应用集成实施是数据管理实施中的一个重要环节,它通过整合数据应用系统和开发定制化报表,为客户提供数据的无缝流动和共享,以支持业务决策和优化。在实施过程中,需要充分协作和沟通,确保数据的有效整合和应用。 父主题: 数据治理实施专业服务
  • 数据集成作业开发 数据集成作业开发是数据使能解决方案中的重要环节,它涉及将不同数据源的数据整合、转换和传输到目标系统的过程。在华为云数据使能解决方案中,提供了多种数据集成技术栈,以满足不同场景的需求。 对于批量数据集成,推荐使用华为云的 CDM (Cloud Data Migration)服务。CDM支持多种数据源和目标数据库,可以实现批量数据的迁移和同步。通过可视化界面和配置,用户可以快速设置数据源和目标数据库的连接,并进行数据映射和转换,实现高效的批量数据集成。 对于实时数据集成,提供了多种技术和工具。DRS和CDL可以实现实时数据流处理和传输,支持多种消息协议和数据格式。Kafka和Flink是流式处理框架,可以实现异步消息传递和解耦,具有低延迟和高吞吐量的数据处理能力。IIoT则专注于工业物联网领域的实时数据集成和处理。 对于非结构化数据集成,提供了OBS和FTS。OBS可以用于大规模文件的传输、同步、存储和访问,支持多种文件格式和存储策略。FTS则提供了高速的文件传输服务,可以快速传输大文件和大量文件。 此外,还提供了API集成的解决方案。Roma和数据服务可以帮助用户进行API数据集成、管理和发布。它们提供了安全、高性能的API访问控制和管理功能,使用户能够轻松构建和管理API接口。 在数据集成作业开发过程中,华为云的数据集成服务提供了可视化的快速配置和专业的支持服务,大幅降低了学习成本。用户可以根据具体的需求选择适合的数据集成技术栈,并通过配置和定制来实现高效、可靠的数据集成作业。这将帮助用户实现数据的整合和流动,为业务计算和应用提供可靠的数据基础。
  • 服务部署设计 在为客户进行服务部署设计时,网络架构规划是一个非常重要的环节。一个好的网络架构规划可以提高系统的可用性、性能和安全性,同时还能帮助节省成本。在进行网络架构规划时,除了考虑传统的网络因素外,还需要了解相关的技术架构和云服务。技术架构涉及到系统的整体设计和组件之间的交互方式,而云服务则提供了各种功能和工具来支持应用程序的部署和运行。因此,在进行网络架构规划之前,了解所使用的云服务和技术架构是至关重要的。这样可以确保网络架构与技术架构的协调,从而实现系统的高效运行和优化资源利用。以下是进行网络架构规划时需要考虑的一些关键因素: 需求理解和收集:首先要充分理解和收集客户的业务需求和技术需求,包括应用类型、数据流量大小、性能要求、安全性需求、业务发展预期等。这将为后续的网络架构设计提供基础。 网络拓扑设计:根据需求,设计网络的物理布局和逻辑布局。包括决定网络的层次结构,选择合适的网络设备和技术,规划网络地址和路由,等等。 性能考虑:网络架构需要能够满足客户的性能需求,包括带宽、延迟、吞吐量等。可能需要采用负载均衡、冗余链接、多路径路由等技术来提高性能。 安全规划:网络安全是极为重要的,需要考虑如何防止各种安全威胁,如DDoS攻击、数据泄露等。可能需要使用防火墙、入侵检测系统、VPN、 数据加密 等安全措施。 可扩展性和灵活性:网络架构需要考虑未来的业务增长和技术发展。设计时要考虑到网络的可扩展性和灵活性,以便在不影响现有业务的情况下进行升级和扩展。 成本和ROI:在满足业务需求的同时,还要考虑成本和投资回报率。这包括硬件、软件、维护、升级等各方面的成本。 结合上述关键因素及实际情况,可以给客户提供一个合适的网络架构。下图以本项目为示例,与客户沟通了解到集团正在规划骨干网,因此先期选用VPN接入方式后期转为专线网络,在云上划分一个VPC,该VPC下划分为4个子网分别供给数据接入、数据存储计算、数据服务、数据应用使用。 图2 服务部署设计 完成网络规划后,可根据网络架构展开细化部署架构。
  • 数据集成设计 在数据集成中,针对不同场景可以选择不同的数据集成技术栈。以下是一些常见的数据集成技术栈及其适用场景: 批量数据集成:使用CDM,适用于批量数据迁移和同步,支持多种数据源和目标数据库。 实时数据集成:使用DRS、CDL、Kafka、Flink、IIoT,适用于实时数据流处理和传输以及异步消息传递和解耦,支持多种消息协议和数据格式,低延迟、高吞吐量的数据处理。 非结构化数据集成:使用OBS、FTS,适用于大规模文件的传输、同步、存储、访问,支持多种文件格式和存储策略。 API集成:使用Roma、数据服务,适用于API数据集成、管理、发布,提供安全、高性能的API访问控制和管理功能。 华为云提供多种数据集成服务,针对数据库、文件、消息、API、协议、IOT类数据集成支持可视化快速配置,配套专业服务赋能,大幅降低实施成本。 图3 数据集成设计
  • 资源与成本清单 云服务清单 表1 云服务清单 资源类型 服务 规格 数量 数据治理平台 数据湖 治理中心 (DataArts: Data Governance Center) 企业版:5,000次/天的数据开发调度,附带8作业并发, 最大1.5Gbps带宽的数据集成能力,并且支持管理5,000个技术资产、100个数据模型。 1 数据治理中心 (DataArts Studio)技术资产数量增量包 package.da.10k,增加1万张管理数据表规模。 1 数据迁移 DataArts批量数据迁移增量包 (CDM: Cloud Data Migration) cdm.xlarge: 16核/32GB | 10/4 Gbit/s | 100 并发任务 2 数据计算 MapReduce服务 ( MRS : MapReduce Service) 离线集群-MRS Master节点 MRS服务管理费用 *3; 规格:X86计算 | 通用计算增强型 | c6.8xlarge.4 | 32核 | 128GB *3; 系统盘:通用型SSD | 480GB *3; 数据盘:通用型SSD | 200GB *3; 1 离线集群-MRS分析Core节点 MRS服务管理费用 *16; 规格:X86计算 | 通用计算增强型 | c6.8xlarge.4 | 32核 | 128GB *16; 系统盘:超高IO | 500GB *16; 数据盘:超高IO | 600GB | 2个 *16; 1 实时集群-MRS Master节点 MRS服务管理费用 *3; 规格:X86计算 | 通用计算增强型 | c6.8xlarge.4 | 32核 | 128GB *3; 系统盘:通用型SSD | 480GB *3; 数据盘:通用型SSD | 200GB *3; 1 实时集群-MRS分析Core节点 MRS服务管理费用 *4; 规格:X86计算 | 通用计算增强型 | c6.8xlarge.4 | 32核 | 128GB *4; 系统盘:超高IO | 500GB *4; 数据盘:超高IO | 600GB | 2个 *4; 1 数据存储 对象存储服务 (OBS: Object Storage Service) 对象存储 | 标准存储单AZ存储包 | 100TB; 1 数据仓库 数据仓库服务 (DWS: Data Warehouse Service) dwsx2.16xlarge.m7 | 云数仓 | X86 | 64 vCPUs | 512 GB | 3T * 5 节点; 1 数据应用(取决于应用自身需求) 弹性云服务器 (E CS :Elastic Cloud Server) 32GiB|c6s.4xlarge.2 通用计算增强型 16 vCPUs | 32 GB | Ubuntu 20.04 server 64bit 系统盘 高IO 500 GB x 1 数据盘 3 弹性公网IP (EIP:Elastic IP) 弹性公网10 Mbit/s (可选,如需外网访问系统) 2 云数据库RDS (RDS:Relational Database Service) 实例类型:主备 | 数据库引擎版本:MYSQL 8.0 | 性能规格:4 vCPUs | 16 GB | 存储空间:500G | 网络:内网 1 分布式缓存服务 Redis版 实例类型:主备 | 版本:Redis 5.0 | 性能规格:4GB | 副本数:2 | 网络:内网 1 专业服务清单 本案例所涉及的数据管理实施专业服务报价项如下,不同报价项的价格仅供参考,实际以收费账单为准: 表2 专业服务清单 类别 报价项 量纲 数据管理成熟度诊断 数据管理成熟度诊断 套 数据使能信息架构设计 数据使能信息架构设计-基础包 套 数据使能信息架构设计-增量包 套 数据使能技术架构设计 数据使能技术架构设计 套 数据使能技术平台集成实施 数据使能技术平台集成实施 套 IT数采集成实施 套 OT数采集成实施 套 数据使能方案设计 数据湖治理方案设计-基础包 套 数据湖治理方案设计-增量包 套 ITOT融合方案设计 套 数智融合方案设计 套 数据使能方案实施 数据湖治理方案实施-基础包 套 数据湖治理方案实施-增量包 套 ITOT融合方案实施 套 数智融合方案实施 套 数据应用集成设计与实施 数据应用集成设计与实施 套
  • 应用场景 天眼查可提供多样性解决方案,助力政府、机构、企业客户在自建风控、拓客、供应商管理系统等应用场景提升决策确定性。企业可使用天眼查数据自建业务平台,基于云端百种数据接口,按需调取,快速搭建自己的商业数据库,满足企业实现低成本、高效调用数据的需求。具有全维度数据、稳定及时、安全准确、赋能多业务场景的核心特征。 在金融领域,可应用于信用风险评估、合规性检查等场景。以协助实现评估信用风险,获得综合的信用评级和风险报告,准确判断借款人信用;快速检查合规性和背景,减少合规风险,确保客户符合法规和合规要求。 互联网领域: 可应用于目标客户群识别、合作伙伴选择等场景。 可针对自身产品或服务,通过企业相关数据,识别并确定目标客户群;评估合作伙伴(如店家/供应商)的实力和信誉,以推动业务发展。 政府税务领域: 可应用于纳税信息核实、逃税风险监测、等场景。帮助核实企业的纳税信息,确保企业的税务申报准确性和合规性。监测企业是否存在逃税行为,提高税收征管效果;在政府审计领域,可应用于信息获取与验证、风险评估、监管合规等场景。以获取准确、全面的企业财务、交易和经营数据,以验证企业账务的真实性和完整性。及时了解企业的风险暴露,包括财务风险、合规风险等,帮助确定审计的重点领域。监测企业是否遵守法律法规,确保企业在经营过程中合规运营。在检法司领域可应用于犯罪调查、资产追踪等场景,以获取企业的经济和金融信息,协助检法司揭示经济犯罪行为,支撑犯罪调查。或协助追踪犯罪嫌疑人的资产和交易活动,帮助资产追缴和赔偿。 智能制造领域: 可应用于供应链管理场景,以评估潜在供应商的信誉、财务状况和供应链稳定性。需要分析供应应商的信用评级、财务数据和历史表现,协助企业做出合适的供应链决策,减少供应链风险。 客户的痛点: 痛点一:数据准确性不足,从互联网直接爬取的数据无法支撑决策;收集和整理竞信息需要耗费大量时间和资源。信息的准确性和实时性至关重要。 痛点二:数据不对称,难以获得准确的企业信息。风险评估需要综合考虑多个因素,如财务数据、法律诉讼等。 痛点三:企业的合作伙伴信息不透明,需要深入了解其经营状况和商业风险。合作伙伴选择需要综合考虑多个因素。 通过本方案实现的业务效果: 金融-信贷业务/风控(国有银行/商业银行/金融服务/财产保险/人寿保险) 降低合规监管风险:多维度数据整合、实时风险评估,提供全面的信用分析。前对企业评估风险,防范骗取授信,准入合规筛查;多个借贷主体之间的隐藏关联关系发掘,对与自身有业务往来的企业或个人能够实时的进行风险监控。 信息核验快速:完成企业或个人的相关信息筛查和核验(如工商信息/企业的名称/统一社会信用代码和法人代表姓名统的企业三要素查验等)。 背景调查数字化:客户信息核验,避免碎片化背调错漏,无需重复调查,获取真实准确信息,生成企业信用报告。洞察主体状况,提供详细的财务数据和企业背景,帮助投资者做出明智的投资决策。 关联关系可排查:规避联合投标、财务坏账关联、借壳串标;(如最终受益人、疑似实际控制人、实际控制权、股权穿透图等) 互联网-电商平台/店铺管理(垂直电商/平台电商/跨境电商/O2O电商) 准确拓客:对潜在客户进行准确筛选,补全现有客户的业务维度数据,提升客户资料使用率和准确率; 提升合规审核效率:用于企业准入规则审核,判断平台的入驻商家,是否合规以及是否存在合作风险(如正常经营,是否正式注册存在); 智能录入:辅助提升合作伙伴(如店家/供应商)信息录入效率,如智能填单,快速识别、匹配、自动填充,规范录入信息。辅助线上提交审批材料后的快速验证。 政府-数字税务(税务) 强化税收征管: 商业查询提供准确的税务信息,帮助税务机构提高税收征管效果,减少逃税行为,增加税收收入 政府-检法司大数据(检法司) 增强执法能力: 商业查询提供的信息可用作法庭证据,有助于支持司法程序,提高执法效果。法院接受案件审理时查看企业相关信息,包括财产线索,股权结果等企业概况,同时针对涉及的关联方,以及企业信息合法合规性进行查询,协助案件处理。通过商业查询,税务机构和检法司可以更准确、高效地获取、核实和分析商业信息,从而更好地履行监管、税收征管和执法职责,实现更有效的合规性、税收征管和法律执法。 智能制造-供应链管理(国内传统车企/外资车企/造车新势力/设备制造/药厂) 提升供应链管理效率:供应链管理和供应商评估,企业可以分析供应商的财务状况、供应链历史,减少供应链风险。供应商入驻审核,供应链从优选取;资质评分、供应商信用评级,提升供应链管理效率。 集成商(伙伴维度) 提升开发效率:基于高准确度、丰富的数据,为功能开发提供较为完备的数据支撑,降低自行数据采集带来的难度。
  • 方案优势 丰富的多维数据 提供18类、216个接口、300+多维度信息的API,向场景化需求提供关键数据查询的能力。帮助客户做出更明智的决策,提高效率,降低风险。 数据查询毫秒级响应 基于华为云构建资源层高效、智能的IaaS和PaaS底座,调用接口后响应速度极快,均值在300~500毫秒左右。 7*24h稳定调用 API接口支持7*24小时稳定调用,全年稳定正常服务时长超过99.97%。 专业服务 具备专业的售前&售后&交付团队,全程平稳对接。
  • 错误代码说明 表3 错误代码说明 代码 说明 0 请求成功 300000 ⽆数据 300001 请求失败 300002 账号失效 300003 账号过期 300004 访问频率过快 300005 ⽆权限访问此api 300006 余额不⾜ 300007 剩余次数不⾜ 300008 缺少必要参数 300009 账号信息有误 300010 URL不存在 300011 此IP⽆权限访问此api 300012 报告⽣成中
  • 根据代码示例修改获取方式 /** * @param path 对⽅或第三⽅提供的路径 * @param token * @return */ public static String getMessageByUrlToken(String path,String token){ String result=""; try { // 根据地址获取请求 HttpGet request = new HttpGet(path);//这⾥发送get请求 // 获取当前客户端对象 request.setHeader("Authorization", token); HttpClient httpClient = new DefaultHttpClient(); // 通过请求对象获取响应对象 HttpResponse response = httpClient.execute(request); // 判断网络连接状态码是否正常(0--200都数正常) if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) { result= EntityUtils.toString(response.getEntity(),"utf-8"); } } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); e.printStackTrace(); } return result; } // 访问授权限制访问级别:普通接⼝
  • 返回字段说明 根据返回字段进行调校。 表2 返回字段说明 返回值字段 字段类型 字段说明 备注 result Object - - historyNames String varchar(255) 曾⽤名 regStatus String varchar(31) 企业状态 cancelDate Number 时间戳 注销⽇期 regCapital String varchar(50) 注册资本 city String varchar(20) 市 staffNumRange String varchar(200) ⼈员规模 industry String varchar(255) ⾏业 historyNameList Array - 曾⽤名 bondNum String varchar(20) 股票号 type Number int(1) 法⼈类型,1 ⼈ 2 公司 bondName String varchar(20) 股票名 updateTimes Number 时间戳 更新时间 revokeDate Number 时间戳 吊销⽇期 legalPersonName String varchar(255) 法⼈ revokeReason String varchar(500) 吊销原因 regNumber String varchar(31) 注册号 property3 String varchar(255) 英⽂名 creditCode String varchar(255) 统⼀社会信⽤代码 usedBondName String varchar(20) 股票曾⽤名 fromTime Number 时间戳 经营开始时间 approvedTime Number 时间戳 核准时间 socialStaffNum Number int(10) 参保⼈数 alias String varchar(255) 简称 companyOrgType String varchar(127) 企业类型 actualCapitalCurrency String varchar(10) 实收注册资本币种 ⼈⺠币 美元 欧元 等 id Number int(20) 企业id orgNumber String varchar(31) 组织机构代码 cancelReason String varchar(500) 注销原因 toTime Number 时间戳 经营结束时间 actualCapital String varchar(50) 实收注册资⾦ estiblishTime Number 时间戳 成⽴⽇期 regInstitute String varchar(255) 登记机关 taxNumber String varchar(255) 纳税⼈识别号 businessScope String varchar(4091) 经营范围 regLocation String varchar(255) 注册地址 regCapitalCurrency String varchar(10) 注册资本币种 ⼈⺠币 美元 欧元 等 tags String varchar(255) 企业标签 district String varchar(20) 区 name String varchar(255) 企业名 bondType String varchar(31) 股票类型 percentileScore Number 万分制 企业评分 industryAll Object - 国⺠经济⾏业分类 categoryMiddle String varchar(255) 国⺠经济⾏业分类中类 categoryBig String varchar(255) 国⺠经济⾏业分类⼤类 category String varchar(255) 国⺠经济⾏业分类⻔类 categorySmall String varchar(255) 国⺠经济⾏业分类⼩类 isMicroEnt Number int(1) 是否是⼩微企业 0不是 1是 base String varchar(31) 省份简称 reason String - 错误信息 error_code Number - 状态码
  • 操作场景 本章节介绍如何创建Kafka数据复制的Smart Connect任务,通过Smart Connect任务可以实现在两个Kafka实例中,数据的单向或双向复制。 2022年7月1日前已开启Smart Connect的实例,如果没有Kafka数据复制,请先关闭Smart Connect,然后再重新开启Smart Connect。 单机版实例不支持创建Kafka数据复制的Smart Connect任务。 源Kafka实例中的数据会实时同步到目标Kafka实例中。
  • 操作步骤 进入购买Kafka实例页面。 选择“计费模式”、“区域”、“项目”和“可用区”。 设置“实例名称”和“企业项目”。 设置实例信息。 规格选择模式:选择“集群版”或者“规格测算”或者“单机版”。 集群版:您需要根据实际情况自行选择集群版Kafka实例的版本号、代理规格、代理数量和存储空间。集群版实例支持Kafka 1.1.0、2.7和3.x版本。 规格测算:系统根据您输入的参数(生产流量峰值、消费流量、单个Topic副本数、总分区数和老化时间内的生产消息量),为您计算出不同规格所需的代理个数和代理存储空间,您根据实际情况选择。 单机版:创建一个2.7版本、单代理的实例,关于单机版实例具体的介绍请参见单机版实例介绍。 选择集群版时,您需要根据实际情况选择Kafka实例的版本号、代理规格、代理数量和存储空间。 版本:Kafka的版本号,支持1.1.0、2.7、3.x,根据实际情况选择,推荐使用2.7。实例创建后,版本号不支持修改。 CPU架构:支持“x86计算”,保持默认值即可。 在“代理规格”中,请根据业务需求选择相应的代理规格。 单个代理最大分区数*代理个数=实例分区数上限。当所有Topic的总分区数大于实例分区数上限时,创建Topic失败。 在“代理数量”中,选择代理个数。 在“单个代理存储空间”区域,您根据实际需要选择存储Kafka数据的磁盘类型和总磁盘大小。Kafka实例创建后,磁盘类型不支持修改。 存储空间包含所有副本存储空间总和,建议根据业务消息体积以及副本数量选择存储空间大小。假设业务存储数据保留天数内磁盘大小为100GB,则磁盘容量最少为100GB*副本数 + 预留磁盘大小100GB。 创建实例时会进行磁盘格式化,磁盘格式化会导致实际可用磁盘为总磁盘的93%~95%。 在“容量阈值策略”区域,设置磁盘使用达到容量阈值后的消息处理策略,容量阈值为95%。 自动删除:可以正常生产和消费消息,但是会删除最早的10%的消息,以保证磁盘容量充足。该场景优先保障业务不中断,数据存在丢失的风险。 生产受限:无法继续生产消息,但可以继续消费消息。该场景适用于对数据不能丢的业务场景,但是会导致生产业务失败。 图1 默认的规格类型 选择规格测算时,系统根据您输入的参数(生产流量峰值、消费流量、单个Topic副本数、总分区数和老化时间内的生产消息量),为您计算出不同规格所需的代理个数和代理存储空间,您根据实际情况选择。3.x版本不支持规格测算。 图2 规格测算 选择单机版时,您可以创建一个2.7版本、单代理的实例。 版本:Kafka的版本号,仅支持2.7。 CPU架构:支持“x86计算”,保持默认值即可。 在“代理规格”中,请根据业务需求选择相应的代理规格。 代理数量:只支持1个代理。 在“单个代理存储空间”区域,您根据实际需要选择存储Kafka数据的磁盘类型。磁盘容量默认为100GB,不支持修改。 Kafka实例创建后,磁盘类型不支持修改。 创建实例时会进行磁盘格式化,磁盘格式化会导致实际可用磁盘为总磁盘的93%~95%。 在“容量阈值策略”区域,设置磁盘使用达到容量阈值后的消息处理策略,容量阈值为95%。 自动删除:可以正常生产和消费消息,但是会删除最早的10%的消息,以保证磁盘容量充足。该场景优先保障业务不中断,数据存在丢失的风险。 生产受限:无法继续生产消息,但可以继续消费消息。该场景适用于对数据不能丢的业务场景,但是会导致生产业务失败。 设置实例网络环境信息。 在“虚拟私有云”下拉列表,选择已经创建好的虚拟私有云和子网。 虚拟私有云可以为您的Kafka实例构建隔离的、能自主配置和管理的虚拟网络环境。 虚拟私有云和子网在Kafka实例创建完成后,不支持修改。 在“内网IP地址”下拉列表,选择“自动分配”或“手动选择”。 自动分配:系统自动分配子网中可用的IP地址。 手动选择:在下拉框中勾选指定的IP地址。 在以下区域,“内网ip地址”移动到了“内网访问”中,具体请参见6。 华北-北京四 华东-上海一 华南-广州 华东-上海二 华南-广州-友好用户环境 西南-贵阳一 中国-香港 亚太-曼谷 亚太-新加坡 亚太-雅加达 土耳其-伊斯坦布尔 非洲-约翰内斯堡 在“安全组”下拉列表,可以选择已经创建好的安全组。 安全组是一组对Kafka实例的访问规则的集合。您可以单击右侧的“管理安全组”,跳转到网络控制台的“安全组”页面,查看或创建安全组。 设置实例的访问方式。 表1 实例的访问方式 访问方式 接入方式 说明 内网访问 明文接入 明文接入表示客户端连接Kafka实例时,无需进行SASL认证。 内网访问不支持关闭,明文接入和密文接入至少开启一个。 密文接入 密文接入表示客户端连接Kafka实例时,需要进行SASL认证。 内网访问不支持关闭,明文接入和密文接入至少开启一个。部分region密文接入开启后,不支持关闭,如果需要关闭,请联系客服处理。 开启“密文接入”后,需要设置kafka安全协议、SASL PLAIN机制、用户名和密码。 实例创建后,关闭“密文接入”并不会删除已创建的用户,再次开启“密文接入”时无需创建用户。 内网IP地址 根据实际需求选择“自动分配”或“手动选择”。 自动分配:系统自动分配子网中可用的IP地址。 手动选择:在下拉框中勾选指定的IP地址。如果指定的IP地址数量少于代理数量时,系统会自动为剩余代理分配IP地址。 公网访问 明文接入 明文接入表示客户端连接Kafka实例时,无需进行SASL认证。 开启/关闭明文接入,并设置公网访问连接地址。 密文接入 密文接入表示客户端连接Kafka实例时,需要进行SASL认证。 开启/关闭密文接入,并设置公网访问连接地址。 开启“密文接入”后,需要设置kafka安全协议、SASL PLAIN机制、用户名和密码。 实例创建后,关闭“密文接入”并不会删除已创建的用户,再次开启“密文接入”时无需创建用户。 公网IP地址 根据页面提示信息选择对应数量的公网IP地址。 如果公网IP地址数量不足,请单击“创建弹性IP”跳转到弹性公网IP页面,创建公网IP地址。然后返回Kafka控制台,在“公网IP地址”后单击,刷新公网IP地址。 Kafka实例不支持绑定IPv6的弹性公网IP,只支持绑定IPv4的弹性公网IP。 单机版实例不支持密文接入。 kafka安全协议、SASL PLAIN机制、用户名和密码的参数解释如下: 表2 密文接入参数说明 参数名称 参数值 说明 kafka安全协议 SASL_SSL 采用SASL方式进行认证,数据通过SSL证书进行加密传输,安全性更高。 支持SC RAM -SHA-512机制和PLAIN机制。 什么是SCRAM-SHA-512机制和PLAIN机制? SCRAM-SHA-512机制:采用哈希算法对用户名与密码生成凭证,进行身份校验的安全认证机制,比PLAIN机制安全性更高。 PLAIN机制:一种简单的用户名密码校验机制。 SASL_PLAINTEXT 采用SASL方式进行认证,数据通过明文传输,性能更好。 支持SCRAM-SHA-512机制和PLAIN机制。 由于明文传输,建议使用SCRAM-SHA-512机制。 SASL PLAIN机制 - 未开启“SASL PLAIN机制”时,使用SCRAM-SHA-512机制对账号密码进行认证。 开启“SASL PLAIN机制”后,同时支持SCRAM-SHA-512机制和PLAIN机制,根据实际情况选择其中任意一种配置连接。 密文接入成功开启后,SASL PLAIN机制不支持修改。 用户名、密码 - 客户端用于连接Kafka实例的用户名和密码。 密文接入成功开启后,用户名不支持修改。 实例的访问方式在以下区域上线: 华北-北京四 华东-上海一 华南-广州 华东-上海二 华南-广州-友好用户环境 西南-贵阳一 中国-香港 亚太-曼谷 亚太-新加坡 亚太-雅加达 土耳其-伊斯坦布尔 非洲-约翰内斯堡 设置“Kafka SASL_SSL”。 客户端连接Kafka实例时,是否开启SASL认证。开启Kafka SASL_SSL,则数据加密传输,安全性更高。 “Kafka SASL_SSL”默认为开启状态,Kafka实例创建后,Kafka SASL_SSL开关不支持修改,请慎重选择。如果创建后需要修改,需要重新创建实例。 开启Kafka SASL_SSL后,您可以选择是否开启“SASL PLAIN 机制”。未开启“SASL PLAIN 机制”时,使用SCRAM-SHA-512机制传输数据,开启“SASL PLAIN 机制”后,同时支持SCRAM-SHA-512机制和PLAIN机制,根据实际情况选择其中任意一种配置连接。Kafka实例创建后,SASL PLAIN机制开关不支持修改。 什么是SCRAM-SHA-512机制和PLAIN机制? SCRAM-SHA-512机制:采用哈希算法对用户名与密码生成凭证,进行身份校验的安全认证机制,比PLAIN机制安全性更高。 PLAIN机制:一种简单的用户名密码校验机制。 开启Kafka SASL_SSL后,您需要设置连接Kafka实例的用户名和密码。 在以下区域,“Kafka SASL_SSL”已调整了位置,移动到了“内网访问”和“公网访问”中,具体请参见6。 华北-北京四 华东-上海一 华南-广州 华东-上海二 华南-广州-友好用户环境 西南-贵阳一 中国-香港 亚太-曼谷 亚太-新加坡 亚太-雅加达 土耳其-伊斯坦布尔 非洲-约翰内斯堡 单机版实例不显示此参数。 设置实例购买时长。 当选择了“包年/包月”付费模式时,页面才显示“购买时长”参数,您需要根据业务需要选择。 单击“更多配置”,设置更多相关信息。 设置“公网访问”。 “公网访问”默认为关闭状态,您可以选择是否开启。 开启公网访问后,还需要为每个代理设置对应的IPv4弹性IP地址。 开启公网访问后,还可以选择是否开启VPC内网明文访问。如果开启了VPC内网明文访问,无论实例是否开启SASL_SSL,通过内网连接实例时,数据都将明文传输。创建实例后,VPC内网明文访问开关不支持修改,请慎重选择。如果创建后需要修改,需要重新创建实例。 在以下区域,“公网访问”已调整了位置,移动到了“更多配置”外,具体请参见6。 华北-北京四 华东-上海一 华南-广州 华东-上海二 华南-广州-友好用户环境 西南-贵阳一 中国-香港 亚太-曼谷 亚太-新加坡 亚太-雅加达 土耳其-伊斯坦布尔 非洲-约翰内斯堡 选择是否开启Smart Connect。 Smart Connect用于异构系统间的数据同步,开启Smart Connect后,设置Smart Connect任务可以实现Kafka实例和其他云服务之间的数据同步,或者两个Kafka实例之间的数据同步。 单机版实例不显示此参数。 设置“Kafka自动创建Topic”。 “Kafka自动创建Topic”默认为关闭状态,您可以选择是否开启。 开启“Kafka自动创建Topic”表示生产或消费一个未创建的Topic时,系统会自动创建此Topic,此Topic的默认参数值如下:分区数为3,副本数为3,老化时间为72小时,不开启同步复制和同步落盘。 如果在“配置参数”中修改“log.retention.hours”、“default.replication.factor”或“num.partitions”的参数值,此后自动创建的Topic参数值为修改后的参数值。例如:“num.partitions”修改为“5”,自动创建的Topic参数值如下:分区数为5,副本数为3,老化时间为72小时,不开启同步复制和同步落盘。 设置“标签”。 标签用于标识云资源,当您拥有相同类型的许多云资源时,可以使用标签按各种维度(例如用途、所有者或环境)对云资源进行分类。 如您的组织已经设定分布式消息服务Kafka版的相关标签策略,则需按照标签策略规则为Kafka实例添加标签。标签如果不符合标签策略的规则,则可能会导致Kafka实例创建失败,请联系组织管理员了解标签策略详情。 如果您已经预定义了标签,在“标签键”和“标签值”中选择已经定义的标签键值对。另外,您可以单击“查看预定义标签”,跳转到标签管理服务页面,查看已经预定义的标签,或者创建新的标签。 您也可以直接在“标签键”和“标签值”中设置标签。 当前每个Kafka实例最多支持设置20个不同标签,标签的命名规格,请参考管理实例标签章节。 设置实例的描述信息。 填写完上述信息后,单击“立即购买”,进入规格确认页面。 确认实例信息无误且阅读并同意《华为云用户协议》后,如果“计费模式”选择“包年/包月”,单击“去支付”。根据界面提示信息,支付费用。如果“计费模式”选择“按需付费”,单击“提交”。 在实例列表页面,查看Kafka实例是否创建成功。 创建实例大约需要3到15分钟,此时实例的“状态”为“创建中”。 当实例的“状态”变为“运行中”时,说明实例创建成功。 当实例的“状态”变为“创建失败”,请参考删除实例,删除创建失败的实例,然后重新创建。如果重新创建仍然失败,请联系客服。 创建失败的实例,不会占用其他资源。
  • 使用限制 单账号跟踪的事件可以通过 云审计 控制台查询。多账号的事件只能在账号自己的事件列表页面去查看,或者到组织追踪器配置的OBS桶中查看,也可以到组织追踪器配置的 CTS /system日志流下面去查看。 用户通过云审计控制台只能查询最近7天的操作记录。如果需要查询超过7天的操作记录,您必须配置转储到对象存储服务(OBS),才可在OBS桶里面查看历史文件。否则,您将无法追溯7天以前的操作记录。 云上操作后,1分钟内可以通过云审计控制台查询管理类事件操作记录,5分钟后才可通过云审计控制台查询数据类事件操作记录。
  • 前提条件 已配置正确的安全组。 访问未开启SASL的Kafka实例时,实例需要配置正确的安全组规则,具体安全组配置要求,请参考表2。 已获取连接Kafka实例的地址。 如果是使用内网通过同一个VPC访问,实例端口为9092,实例连接地址获取如下图。 图1 使用内网通过同一个VPC访问Kafka实例的连接地址(实例未开启SASL) 图2 使用内网通过同一个VPC访问Kafka实例的连接地址(实例未开启SASL) 如果是公网访问,实例端口为9094,实例连接地址获取如下图。 图3 公网访问Kafka实例的连接地址(实例未开启SASL) 图4 公网访问Kafka实例的连接地址(实例未开启SASL) 如果Kafka实例未开启自动创建Topic功能,在连接实例前,请先创建Topic。 已下载Kafka命令行工具1.1.0版本或者Kafka命令行工具2.3.0版本或者Kafka命令行工具2.7.2版本或者Kafka命令行工具3.4.0版本,确保Kafka实例版本与命令行工具版本相同。 已创建弹性云服务器,如果使用内网通过同一个VPC访问实例,请设置弹性云服务器的VPC、子网、安全组与Kafka实例的VPC、子网、安全组一致。在弹性云服务器中安装Java Development Kit 1.8.111或以上版本,并配置JAVA_HOME与PATH环境变量,具体方法如下: 使用执行用户在用户家目录下修改“.bash_profile”,添加如下行。其中“/opt/java/jdk1.8.0_151”为JDK的安装路径,请根据实际情况修改。 export JAVA_HOME=/opt/java/jdk1.8.0_151 export PATH=$JAVA_HOME/bin:$PATH 执行source .bash_profile命令使修改生效。
  • 操作场景 Kafka实例创建成功后,您可以根据业务需要,扩容或者缩容,Kafka实例支持的变更配置如表1所示。 表1 变更配置列表 实例规格类型 变更配置类型 是否支持扩容 是否支持缩容 新规格实例 代理数量 √ × 存储空间 √ × 代理规格 √ √ 老规格实例 基准带宽 √ × 存储空间 √ × 代理规格 × × 单机版实例不支持变更实例规格。 怎样判断老规格实例和新规格实例? 老规格实例:在实例列表中,“规格”显示为带宽(如100MB/s)的实例。 新规格实例:在实例列表中,“规格”显示为ECS规格和代理个数(如kafka.2u4g.cluster*3 broker)的实例。 图1 实例列表
  • 变更实例规格的影响 变更实例规格的时长和代理数量有关,单个代理的变更时长一般在5~10分钟,代理数量越多,规格变更时间越长。 表2 变更实例规格的影响 变更配置类型 影响 基准带宽/代理数量 扩容基准带宽/代理数量不会影响原来的代理,业务也不受影响。 扩容基准带宽/代理数量时,系统会根据当前磁盘大小进行相应比例的存储空间扩容。例如扩容前实例的代理数为3,每个代理的磁盘大小为200GB,扩容后实例的代理数为10,此时代理的磁盘大小依旧为200GB,但是总磁盘大小为2000GB。 新创建的Topic才会分布在新代理上,原有Topic还分布在原有代理上,造成分区分布不均匀。通过修改分区平衡,实现将原有Topic分区的副本迁移到新代理上。 存储空间 扩容存储空间有次数限制,只能扩容20次。 扩容存储空间不会影响业务。 代理规格 若Topic为单副本,扩容/缩容期间无法对该Topic生产消息或消费消息,会造成业务中断。 若Topic为多副本,扩容/缩容代理规格不会造成服务中断,但可能会导致消费的分区消息发生乱序,请谨慎评估业务影响,建议您在业务低峰期扩容/缩容。 扩容/缩容代理规格的过程中,节点滚动重启造成分区Leader切换,会发生秒级连接闪断,在用户网络环境稳定的前提下,Leader切换时长一般为1分钟以内。多副本的Topic需要在生产客户端配置重试机制,方法如下: 生产客户端为Kafka开源客户端时,检查是否配置retries参数,建议此参数值设置为3~5。 生产客户端为Flink客户端时,检查是否配置重启策略,配置重启策略可以参考如下代码。 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, Time.seconds(20))); 若实例已创建的分区数总和大于待缩容规格的实例分区数上限,此时无法缩容。不同规格配置的实例分区数上限不同,具体请参见产品规格。 例如:kafka.4u8g.cluster*3的实例,已创建800个分区,您想把此实例的规格缩容为kafka.2u4g.cluster*3,kafka.2u4g.cluster*3规格的实例分区数上限为750,此时无法缩容。
  • Kafka实例的连接地址默认有多少个? Kafka实例的连接地址个数和实例的代理个数有关,连接地址个数即为代理个数。每类实例规格对应的代理个数如下表所示。 表1 Kafka实例规格(集群版实例) 实例规格 代理个数范围 单个代理TPS 单个代理分区上限 单个代理建议消费组数 单个代理客户端总连接数上限 存储空间范围 单个代理流量规格(MB/s) kafka.2u4g.cluster.small 3~30 20000 100 15 2000 300GB~300000GB 40 kafka.2u4g.cluster 3~30 30000 250 20 2000 300GB~300000GB 100 kafka.4u8g.cluster 3~30 100000 500 100 4000 300GB~600000GB 200 kafka.8u16g.cluster 3~50 150000 1000 150 4000 300GB~1500000GB 375 kafka.12u24g.cluster 3~50 200000 1500 200 4000 300GB~1500000GB 625 kafka.16u32g.cluster 3~50 250000 2000 200 4000 300GB~1500000GB 750 表2 Kafka实例规格(单机版实例) 实例规格 代理个数 单个代理TPS 单个代理分区上限 单个代理建议消费组数 单个代理客户端总连接数上限 存储空间范围 单个代理流量规格(MB/s) kafka.2u4g.single.small 1 20000 100 15 2000 100GB~10000GB 40 kafka.2u4g.single 1 30000 250 20 2000 100GB~10000GB 100 父主题: 连接问题
共100000条