华为云用户手册

  • 前提条件 新建 MRS Hive脱敏策略前,已完成如下操作: 在管理中心创建 MapReduce服务 (MRS Ranger)类型的数据连接,请参考创建 DataArts Studio 数据连接。 已完成用户同步,将 IAM 上的用户信息同步到数据源上,详见同步IAM用户到数据源。 新建DWS脱敏策略前,已完成如下操作: 已在管理中心创建 数据仓库 服务(DWS)类型的数据连接,请参考创建DataArts Studio数据连接。 已完成用户同步,将IAM上的用户信息同步到数据源上,详见同步IAM用户到数据源。 已修改DWS集群“feature_support_options”参数的CN参数值和DN参数值均为“enable_data_redaction”,用于启用DWS动态脱敏能力,修改操作详见修改数据库参数。如果DWS集群没有feature_support_options参数,请联系DWS服务处理。 数据连接中的账户要具备待控制表的GRANT权限(数据库对象创建后,默认只有对象所有者或者系统管理员可以通过GRANT命令将对象的权限授予其他用户)。 MRS Hive和DWS动态脱敏策略为指定用户/用户组在数据源上关联策略,因此需要如果希望在DataArts Studio数据开发执行脚本、测试运行作业时,使用当前用户身份认证鉴权以实现动态脱敏策略生效,则需要启用细粒度认证。 如果希望创建脱敏策略时能够查看哪些字段为敏感字段,则需要提前完成敏感数据发现任务,并通过“敏感数据分布”修正敏感数据字段的数据状态为“有效”。详情请参考发现敏感数据和查看敏感数据分布。
  • 创建动态脱敏策略 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“动态脱敏”,进入动态脱敏页面。 图1 进入动态脱敏页面 单击“新建”,进入新建动态脱敏策略页面,参数配置参考表1。 图2 新建动态脱敏策略参数配置 创建动态脱敏策略参数配置说明: 表1 配置策略参数 参数名 参数说明 *策略名称 动态脱敏策略的唯一标识,DataArts Studio实例内的名称唯一。 为便于策略管理,建议名称中标明要脱敏的对象和脱敏规则。 *数据源类型 当前支持MRS Hive、DWS数据源。 MRS Hive *用户组/用户 指定当前工作空间成员中的用户或用户组。当指定对象在数据开发组件中查询或导出敏感数据时,系统会对敏感数据进行动态脱敏,保护敏感数据不被泄露。 *数据连接 从下拉列表中选择数据连接类型中已创建的数据连接,若未创建请参考创建DataArts Studio数据连接新建连接。 *集群名称 无需选择,自动匹配数据连接中的数据源集群。 *数据库 选择敏感数据所在的数据库。 *数据表 选择敏感数据所在的数据表。 *数据列 您需要勾选一个或多个待脱敏列,并根据不同数据列的数据类型,选择合适的脱敏规则。各类数据源中不同数据类型支持的脱敏规则不同,详见参考:动态脱敏规则介绍。 另外,如果选中的库表列有进行过敏感数据发现并且敏感数据字段的数据状态为“有效”,则将密级和数据分类显示在数据列区域中。 DWS *用户组/用户 指定当前工作空间成员中的用户或用户组。当指定对象在数据开发组件中查询或导出敏感数据时,系统会对敏感数据进行动态脱敏,保护敏感数据不被泄露。 *数据连接 从下拉列表中选择数据连接类型中已创建的数据连接,若未创建请参考创建DataArts Studio数据连接新建连接。 *集群名称 无需选择,自动匹配数据连接中的数据源集群。 *数据库 选择敏感数据所在的数据库。 *schema 选择敏感数据所在的schema。 *数据表 选择敏感数据所在的数据表。 *数据列 您需要勾选一个或多个待脱敏列,并根据不同数据列的数据类型,选择合适的脱敏规则。各类数据源中不同数据类型支持的脱敏规则不同,详见参考:动态脱敏规则介绍。 另外,如果选中的库表列有进行过敏感数据发现并且敏感数据字段的数据状态为“有效”,则将密级和数据分类显示在数据列区域中。 单击“确定”,完成动态脱敏策略创建。动态脱敏策略创建完成后,需要手动单击“同步”,将该策略同步到数据源中。
  • 约束与限制 仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员可以创建、修改或删除动态脱敏策略,其他普通用户无权限操作。 MRS Hive和DWS动态脱敏策略为指定用户/用户组在数据源上关联策略,因此需要如果希望在DataArts Studio数据开发执行脚本、测试运行作业时,使用当前用户身份认证鉴权以实现动态脱敏策略生效,则需要启用细粒度认证。 当前动态脱敏策略仅支持MRS Hive和DWS数据源。 单条动态脱敏策略的配置维度为表级别,即一个表只允许绑定一个策略,一个策略也是只允许绑定一个表。只有处于“同步成功”状态的策略才能生效。 MRS Hive动态脱敏时,MRS Ranger支持对同一列配置不同规则,按照配置的时间顺序先后匹配,因此可以配置多条同集群、同库表列的不同内容的脱敏策略。 当前MRS服务支持的脱敏规则如表2所示,但对中文字符仅支持NULL掩盖和哈希掩盖两种脱敏方式,如果选择其他脱敏方式则脱敏不生效。 MRS Hive数据源的“SM3”、“自定义/保留前x后y”和“自定义/掩盖前x后y”这几种脱敏规则非MRS Ranger组件提供,而是通过UDF自定义函数实现的算法。因此如果使用这几种脱敏规则之一,则会上传算法依赖的JAR包到MRS集群,并需要提前授予Ranger数据连接中账号的创建UDF权限以及所有用户的使用UDF权限,详见参考:配置Ranger组件中的UDF相关权限。 DWS动态脱敏不支持DWS逻辑集群,脱敏前需启用DWS动态脱敏能力(修改DWS集群“feature_support_options”参数的CN参数值和DN参数值均为“enable_data_redaction”,修改操作详见修改数据库参数,如果集群没有feature_support_options参数,则需联系DWS服务处理),且DWS数据连接中的账户要具备待脱敏表的GRANT权限(数据库对象创建后,默认只有对象所有者或者系统管理员可以通过GRANT命令将对象的权限授予其他用户)。 当前DWS服务支持的脱敏规则如表3所示,不支持中文脱敏,如果对含有中文字符的数据进行脱敏则可能会出现乱码。
  • 相关操作 编辑算法:在脱敏算法页面,单击对应算法操作栏中的“编辑”,即可修改算法参数。 不同算法是否支持编辑和支持修改的参数因实际算法不同有所差异,请以操作界面为准。 测试算法:在脱敏算法页面,单击对应算法操作栏中的“测试”,即可测试该算法。 建议您在使用算法之前,使用算法测试功能,以保证自己选择了合适的算法。 不同算法是否支持测试因实际算法不同有所差异,请以操作界面为准。 删除算法:在脱敏算法页面,单击对应算法操作栏中的“删除”,即可删除算法。当需要批量删除时,可以在勾选算法后,在列表上方单击“批量删除”。 注意,内置算法不支持删除,已在脱敏策略或指定列脱敏中引用的自定义算法无法删除。若要删除已引用的自定义算法,需要先修改引用关系,再进行删除操作。 删除操作无法撤销,请谨慎操作。
  • 新建脱敏算法 如果内置算法不满足您的需求,您可以新建自定义脱敏算法,自定义脱敏算法支持掩码、截断、哈希、加密、置空、随机脱敏、字符替换、键值脱敏、数值区间变换、模糊脱敏等10余类算法类型。 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 在数据安全控制台左侧的导航树中单击“脱敏算法”,进入脱敏算法页面。 单击“新建”,新建脱敏算法。 图1 新建脱敏算法 新建脱敏算法参数配置请参考表2,参数配置完成单击“确定”即可。 图2 算法配置 脱敏算法参数说明表: 表2 配置脱敏算法参数说明 配置 说明 *算法名称 用户自定义算法名称,长度不能超过64个字符。 描述 对当前算法进行简单描述,长度不能超过255个字符。 *脱敏算法 自定义脱敏算法支持掩码、截断、哈希、加密、置空、随机脱敏、字符替换、键值脱敏、数值区间变换、模糊脱敏等10余类算法类型,您可以根据脱敏需求自行选择。 掩码:支持字符型、数值型、日期型掩码,将指定位置的原始数据脱敏为固定值。 截断:支持日期类型和数值类型截断,将日期截断到月日小时分秒,将数值截断取整。 哈希:支持所有类型,使用所选的算法计算HASH值。 相较于内置算法,自定义算法新增了dws-SM3密码杂凑算法和通用-SM3密码杂凑算法。其中dws-SM3密码杂凑算法是DWS引擎专有算法,结果为16进制字符串,其字母为小写,要求DWS集群版本不低于8.1.3;通用-SM3密码杂凑算法为 DLI 或MRS引擎通用算法,结果为16进制字符串,其字母为大写。 加密:支持所有类型,使用所选的数据源加密算法为对应数据源的数据进行加密。 置空:支持所有类型,将值设置为null。 随机脱敏:支持日期类型和数值类型随机脱敏,将日期或数值脱敏为指定区间范围之内或样本库中的值。新建样本库的请参考管理样本库章节。注意,选择样本库脱敏时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。 随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。 字符替换:支持数值类型和字符类型字符替换,将指定位置的字符替换为固定值或者样本库中样本文件的值;自定义替换位置时支持使用随机数值或随机小写英文字母替换,并支持身份证号末位计算(计算身份证末位时,位数只能选择1,且前面位数需要大于等于17)。 新建样本库的请参考管理样本库章节。注意,选择样本库替换时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。 随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。 键值脱敏:支持数值类型键值脱敏,根据自定义表达式,将数值脱敏为计算后的数值。填写表达式时,原始数据变量为X,支持对原始数据进行加(+)减(-)乘(*)除(/)、括号(())、取余(%)计算操作。例如表达式为“((X*4+3)%100)/2-1”时,数值3的脱敏结果为6.5。 数值区间变换:支持数值类型区间变换,将指定区间之内的数字变换为指定值。 模糊脱敏:支持数值类型模糊脱敏,支持在百分比或绝对值模糊的区间范围内随机取值。例如百分比模糊模式,百分比分别为-10%和20%时,数值10的模糊脱敏结果为[9,12]区间范围内随机取值。 随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。 开始测试 输入待测试的数据后,单击“测试”,可在测试结果处查看脱敏结果。 说明: 新建随机脱敏或字符替换类型的脱敏算法时,如果选择将敏感数据脱敏为样本库脱敏,则测试算法时限制样本文件大小不能超过10kb。 测试结果
  • 内置脱敏算法介绍 数据安全提供了如下内置脱敏算法供您选择使用。建议您在选择算法之前,可以使用预先提供的内置算法配置和测试功能,以保证自己选择了合适的算法。 表1 内置算法介绍 算法类型 内置算法名称 算法描述 是否支持配置 哈希 HMAC-SHA256哈希 使用HMAC-SHA256算法进行哈希处理。 支持配置盐值和密钥。 说明: 算法使用前必须先配置密钥,此算法才能正常使用。 算法盐值由您自行配置,而非系统给出的安全随机数,请关注相应使用风险。 SHA-256哈希 使用SHA-256算法进行哈希处理。 支持配置盐值。 说明: 算法盐值由您自行配置,而非系统给出的安全随机数,请关注相应使用风险。 截断 数值类型截断 保留小数点前x位,将小数点前第1到x-1位、小数点后的位数全部截断并填补为0。 例如x=3时,1234截断为1200,999.999截断为900,10.7截断为0。 支持配置保留小数点前几位。 日期类型截断 截断日期指定位置。 支持配置日期格式和掩盖范围。 掩码 dws指定列全掩码 dws指定数据列全脱敏。 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 不支持。 dws字符型掩码 从start到end的位置脱敏成指定的字符。 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 支持配置开始位置、结束位置和掩码标志。 dws数值型掩码 从start到end的位置脱敏成指定的数字。 仅当静态脱敏任务中源端、目标端数据源同为DWS,且执行引擎为DWS时才可以选择此算法。 支持配置开始位置、结束位置和掩码标志。 身份证号码掩码 掩码身份证号。 不支持。 银行卡号掩码 掩码银行卡号。 不支持。 Email掩码 掩码Email信息。 不支持。 移动设备标识掩码 对设备码进行掩码,支持IMEI、MEDI、ESN。 支持配置类型。 IPv6掩码 掩码IPv6地址。 不支持。 IPv4掩码 掩码IPv4地址。 不支持。 MAC地址掩码 掩码MAC地址。 不支持。 电话号码掩码 掩码电话号码。 不支持。 日期类型掩码 对指定日期格式进行掩码,支持ISO、EUR、USA格式。 支持配置日期格式和掩盖范围。 掩码自x至y 掩码字符串第x至y位字符。 支持配置x和y。 保留自x至y 保留字符串第x至y位字符。 支持配置x和y。 掩码前n后m 掩码字符串前n后m位字符。 支持配置n和m。 保留前n后m 保留字符串前n后m位字符。 支持配置n和m。 加密 dws列加密 调用 GaussDB (DWS)提供的对称密码算法gs_encrypt_aes128(encryptstr,keystr)实现对DWS数据列的加密,此算法以keystr为密钥对encryptstr字符串进行加密,返回加密后的字符串。 算法注意事项如下: 仅当脱敏任务的目标源为DWS时,此算法才能正确生效。 加密后执行SQL解密时,必须当所有的数据都解密成功时,才能正确返回解密结果,否则解密失败。 支持配置密钥,长度范围为1~16字节。 说明: 算法使用前必须先配置密钥,此算法才能正常使用。 hive列加密 调用MRS提供的Hive列加密功能来实现对Hive数据列的加解密,支持AES和 SMS 4两种加密算法。 算法注意事项如下: 仅当脱敏任务的目标源为Hive时,此算法才能正确生效。 列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。 Hive列加密不支持视图以及Hive over HBase场景。 支持配置加密类型。
  • 约束与限制 新建随机脱敏或字符替换类型的脱敏算法时,如果选择将敏感数据脱敏为样本库脱敏,则测试算法时限制样本文件大小不能超过10kb。注意,10kb仅为算法测试功能的限制,静态脱敏时并不限制样本文件大小不超过10kb。 新建哈希类型的脱敏算法时,其中的dws-SM3密码杂凑算法是DWS引擎专有算法,结果为16进制字符串,其字母为小写,要求DWS集群版本不低于8.1.3。通用-SM3密码杂凑算法为DLI或MRS引擎通用算法,结果为16进制字符串,其字母为大写。
  • 导入预置分类 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击数据安全左侧导航树中的“数据分类”,进入数据分类页面。 图3 进入数据分类 如果还没有新建的分类,可以单击“导入预置数据分类”,进入导入窗口。已有新建分类时,可通过单击,进入导入窗口。 在弹出的导入预置数据分类窗口中,勾选需要导入的数据分类,为待导入规则逐一配置数据密级或批量设置密级后,单击“确定”完成预置数据分类和规则的导入。 图4 导入预置数据分类
  • 创建分类 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击数据安全左侧导航树中的“数据分类”,进入数据分类页面。 图1 进入数据分类 首次新建分类时,需要通过分类目录上方的 ,至少新增一个根目录层级分类。后续再新建分类时,可通过或,新增同级或子级分类。 单击或后,在弹出的新建分类窗口中,参考表1填写数据分类信息。 图2 新建数据分类 表1 参数设置 参数名 参数设置 *分类名称 分类名称只能包含中文、英文字母、数字和下划线。 描述 分类描述支持所有字符输入。
  • 相关操作 编辑分类:在数据分类页面,先选择分类目录中需要修改的目录,然后单击分类目录上方的,即可修改分类名称和描述。 删除分类:在数据分类页面,先选择分类目录中需要删除的目录,然后单击分类目录上方的,即可删除分类。 另外,也支持通过编辑数据分类目录的方式删除分类。您可以单击分类目录上方的,在“编辑数据分类目录”页面删除分类。 当父类下有子分类的时候,无法直接删除该父分类,需要先删除子分类。 被引用的数据分类无法直接删除,需要先解除引用关系后才能删除。 删除操作无法撤销,请谨慎操作。 编辑数据分类目录:当需要整体编辑目录时,可以单击分类目录上方的,进入“编辑数据分类目录”页面。在“编辑数据分类目录”页面,支持新增子级分类,或删除分类。 删除操作无法撤销,请谨慎操作。
  • 约束与限制 当前数据分类的最大层级数默认为5层,最大配额1000个。 仅DAYU Administrator、Tenant Administrator或者数据安全管理员可以创建、修改或删除数据密级、分类和识别规则,其他普通用户无权限操作。 当前支持在不同的父节点下创建同名的分类,但同一父节点下不能创建同名的分类。 导入预置数据分类时,需要先为所有的预置规则配置数据密级,才能导入预置数据分类。 导入预置数据分类时,会直接导入分类和对应的识别规则,与当前分类和规则同名的部分无法导入。 当父类下有子分类的时候,无法直接删除该父分类,需要先删除子分类。 被引用的数据分类无法直接删除,需要先解除引用关系后才能删除。
  • 相关操作 编辑样本库分类:在样本库管理页面,单击目录上的,然后在光标移动到待编辑的分类上,单击后,编辑分类名。 删除样本库分类:在样本库管理页面,单击目录上的,然后在光标移动到待编辑的分类上,单击后,删除分类。 如果样本库分类下还存在样本,则不允许被删除。另外,“全部”根节点分类也不允许删除。 删除操作无法撤销,请谨慎操作。 编辑样本:在样本库管理页面,单击对应样本操作栏中的“编辑”,即可修改样本的各项参数。 删除样本:在样本库管理页面,单击对应样本操作栏中的“删除”,即可删除样本。 注意,被脱敏算法引用的样本不能被删除。若要删除已引用的样本,需要先修改引用关系,再进行删除操作。 删除操作无法撤销,请谨慎操作。
  • 新建样本 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“样本库”,进入样本库管理页面。 图1 进入样本库管理页面 在样本库管理页面,单击目录上的,然后在光标移动到目录上,单击后,输入分类名用于新增样本库分类。分类名称只能包含英文字母、数字、“_”,且长度不超过64个字符,超出部分将被截断。样本库分类最多支持10层(不包含“全部”层)。 图2 新增样本库分类 样本库分类创建完成后,在右侧点样本列表中单击“新建”,新建样本。新建样本时,默认填充分类为左侧选中的分类。 图3 新建样本 在弹出的新建窗口中填写样本信息,参考表1完成配置。配置完成后单击“确定”即可。 图4 新建样本窗口 表1 新建样本参数配置 参数 参数描述 *名称 样本名称,只能包含英文字母、数字、“_”,且长度不能超过64个字符,超出部分将被截断。 描述 为更好地识别样本,此处加以描述信息,长度不能超过1024个字符。 *分类 默认填充分类为左侧选中的样本分类,您也可以单击选择已有分类。 *选择样本 选择已上传至OBS或HDFS中的样本文件。样本文件只支持txt格式,大小建议不超过10MB,其中的数据可通过换行“\n”、空格“ ”、英文逗号“,”、或分隔符“|”进行分隔。 注意,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。 *分隔符 选择样本文件中数据的分隔符,可选择换行“\n”、空格“ ”、英文逗号“,”、或分隔符“|”。
  • 约束与限制 新建随机脱敏或字符替换类型的脱敏算法时,如果选择将敏感数据脱敏为样本库脱敏,则测试算法时限制样本文件大小不能超过10kb。注意,10kb仅为算法测试功能的限制,静态脱敏时并不限制样本文件大小不超过10kb。 样本文件大小建议不超过10MB,否则运行需要解析样本文件的静态脱敏任务时,静态脱敏任务可能会失败。 OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
  • 相关操作 查看溯源结果:在数据水印溯源页面,找到需要查看溯源结果的任务,单击对应任务操作栏中的“查看结果”,即可查看溯源结果。注意,只有溯源成功的任务才会显示溯源信息。 图3 溯源信息 删除任务:在数据水印溯源页面,单击对应任务操作栏中的“删除”,即可删除任务。当需要批量删除时,可以在勾选任务后,在任务列表上方单击“批量删除”。 运行状态为正在“执行中”的任务不允许被删除。 删除操作无法撤销,请谨慎操作。
  • 创建数据水印溯源任务 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“数据水印溯源”,进入数据水印溯源页面,在页面上方单击“新建”。 图1 创建数据水印溯源任务 在弹出的创建任务页面输入信息,参数配置请参考表1。 图2 创建数据水印溯源任务 表1 水印溯源任务参数描述 参数名 参数描述 任务名称 嵌入水印任务的名称,只能包含英文字母、数字、中文字符、下划线或中划线,且长度为1~64个字符。 描述 为更好地识别嵌入水印任务,此处加以描述信息。长度不能超过1024个字符。 源文件 得到泄露的数据文件后,利用其生成 CS V格式文件,注意文件大小不超过20MB。 字段分隔符 根据上传的CSV文件,下拉选择分隔符,支持四种“,”、“Tab”、“|”、“;”。默认选择“,”。 单击“运行”,完成创建数据水印溯源任务。
  • 约束与限制 当前数据水印任务仅支持MRS Hive和MRS Doris数据源。 主键不支持嵌入水印。 数值整型字段嵌入水印可能会出现数据被修改的情况,请选择可以接受值发生改变的字段嵌入水印。 数据水印嵌入任务的数据集范围选择为增量时,需选择时间字段类型Timestamp、Date字段类型来确定增量范围。 MRS Doris数据源仅支持在字符串类型字段嵌入水印,包含Varchar、Text、String等,请确保待嵌入水印的表中包含字符串类型字段 MRS Doris数据水印任务除了需要MRS Doris数据源,还需要额外准备包含Hadoop、Spark和Yarn组件的MRS集群,用于运行数据水印任务。
  • 参考:静态脱敏场景介绍 隐私保护管理目前支持的静态脱敏场景如表3所示。 表3 静态脱敏场景 源端数据源类型 目的端数据源类型 计算引擎 说明 数据湖探索 (DLI) 数据湖 探索(DLI) 使用DLI Spark通用队列 - 数据仓库服务(DWS) 使用DLI Spark通用队列 DLI引擎的静态脱敏任务,当源端或目的端为DWS时,请参考配置DLI队列与内网数据源的网络联通或配置DLI队列与公网网络联通打通DLI Spark通用队列与DWS的网络连接,否则会导致静态脱敏任务失败。 数据仓库服务(DWS) 数据仓库服务(DWS) 使用DWS集群 使用MRS集群 使用DLI Spark通用队列 DWS引擎: DWS引擎的同源静态脱敏任务,不支持跨数据库脱敏,即DWS源端和目的端数据表所在的数据库必须相同。 MRS引擎: MapReduce服务(MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。 MRS引擎的静态脱敏任务,当源端或目的端为DWS时,请参考参考:授权并绑定委托为MRS集群配置委托,并确保MRS集群安全组出方向规则满足如下要求,否则会导致静态脱敏任务失败。 协议:TCP 端口范围:80 远端地址:169.254.0.0/16 DLI引擎: DLI引擎的静态脱敏任务,当源端或目的端为DWS时,请参考配置DLI队列与内网数据源的网络联通或配置DLI队列与公网网络联通打通DLI Spark通用队列与DWS的网络连接,否则会导致静态脱敏任务失败。 MapReduce服务(MRS Hive) 使用MRS Hive所在的MRS集群 MapReduce服务(MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。 MRS引擎的静态脱敏任务,当源端或目的端为DWS时,请参考参考:授权并绑定委托为MRS集群配置委托,并确保MRS集群安全组出方向规则满足如下要求,否则会导致静态脱敏任务失败。 协议:TCP 端口范围:80 远端地址:169.254.0.0/16 MRS引擎的静态脱敏任务,当源端或目的端仅一端为DWS时,支持的数据类型如下。如果有其他不支持的数据类型,将导致静态脱敏任务失败。 tinyint smallint int bigint decimal double float boolean string timestamp 数据湖探索(DLI) 使用DLI Spark通用队列 DLI引擎的静态脱敏任务,当源端或目的端为DWS时,请参考配置DLI队列与内网数据源的网络联通或配置DLI队列与公网网络联通打通DLI Spark通用队列与DWS的网络连接,否则会导致静态脱敏任务失败。 MapReduce服务(MRS Hive) MapReduce服务(MRS Hive) 使用源端MRS Hive所在的MRS集群 MapReduce服务(MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。 数据仓库服务(DWS) 使用MRS Hive所在的MRS集群 MapReduce服务(MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。 MRS引擎的静态脱敏任务,当源端或目的端为DWS时,请参考参考:授权并绑定委托为MRS集群配置委托,并确保MRS集群安全组出方向规则满足如下要求,否则会导致静态脱敏任务失败。 协议:TCP 端口范围:80 远端地址:169.254.0.0/16 MRS引擎的静态脱敏任务,当源端或目的端仅一端为DWS时,支持的数据类型如下。如果有其他不支持的数据类型,将导致静态脱敏任务失败。 tinyint smallint int bigint decimal double float boolean string timestamp
  • 约束与限制 静态脱敏时,请根据待脱敏数据的字段类型正确选择脱敏算法,否则可能会导致数据库数据异常。例如对date字段使用数值随机算法脱敏,会导致data类型将被强制脱敏为数值类型(Hive和DLI脱敏),或者写入失败报错(DWS脱敏);对数值字段使用哈希算法脱敏,会导致数值类型被强制脱敏为哈希值字符串(Hive和DLI脱敏),或者写入失败报错(DWS脱敏)。 运行需要解析样本文件的静态脱敏任务时,样本文件大小建议不超过10MB,否则静态脱敏任务可能会失败。另外,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。 运行使用自定义哈希类型脱敏算法的静态脱敏任务时,如果使用了dws-SM3密码杂凑算法,则必须选择DWS引擎运行,要求DWS集群版本不低于8.1.3;如果使用了通用-SM3密码杂凑算法,则必须选择DLI或MRS引擎运行。 DLI引擎的静态脱敏任务,运行参数需要存储在OBS桶中,任务运行完成或失败后会删除任务运行参数文件。 DLI引擎的同源静态脱敏任务,运行参数存储在工作空间日志桶中,默认以dlf-log-{Project id}命名。 DLI引擎的跨源静态脱敏任务,运行参数存储在自动创建的加密用户桶dls-dli-{projectId}中。 因此DLI引擎静态脱敏前,还需要为dlg_agency委托授予如下OBS权限策略,授权方法可参考授权dlg_agency委托章节。 obs:bucket:HeadBucket obs:bucket:CreateBucket obs:object:PutObject obs:object:DeleteObject obs:bucket:ListBucket obs:object:GetObject obs:bucket:GetEncryptionConfiguration obs:bucket:PutEncryptionConfiguration DLI引擎的静态脱敏任务,当源端或目的端为DWS时,请参考配置DLI队列与内网数据源的网络联通或配置DLI队列与公网网络联通打通DLI Spark通用队列与DWS的网络连接,否则会导致静态脱敏任务失败。 源端或目的端为DLI的静态脱敏任务,不支持对DLI中default数据库的数据表进行脱敏。 MapReduce服务(MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。 MRS引擎的静态脱敏任务,当源端或目的端为DWS时,请参考参考:授权并绑定委托为MRS集群配置委托,并确保MRS集群安全组出方向规则满足如下要求,否则会导致静态脱敏任务失败。 协议:TCP 端口范围:80 远端地址:169.254.0.0/16 MRS引擎的静态脱敏任务,当源端或目的端仅一端为DWS时,支持的数据类型如下。如果有其他不支持的数据类型,将导致静态脱敏任务失败。 tinyint smallint int bigint decimal double float boolean string timestamp DWS引擎的同源静态脱敏任务,不支持跨数据库脱敏,即DWS源端和目的端数据表所在的数据库必须相同。 静态脱敏任务的数据集范围选择为增量时,需选择时间字段类型Timestamp、Date字段类型来确定增量范围。
  • 前提条件 静态脱敏任务需要根据脱敏策略来进行脱敏,相关前提条件如下: 已配置内置脱敏算法或者已自定义脱敏算法,请参考管理脱敏算法进行配置和定义。 已完成脱敏策略的创建,请参考新建脱敏策略。 待脱敏的数据表已完成敏感数据发现任务,请参考创建敏感数据发现任务。 已通过“敏感数据分布”,修正敏感数据字段的数据状态为“有效”,请参考查看敏感数据分布。 DLI引擎静态脱敏任务,需要为dlg_agency委托授予如下OBS权限策略,授权方法可参考授权dlg_agency委托章节。 obs:bucket:HeadBucket obs:bucket:CreateBucket obs:object:PutObject obs:object:DeleteObject obs:bucket:ListBucket obs:object:GetObject obs:bucket:GetEncryptionConfiguration obs:bucket:PutEncryptionConfiguration
  • 新建脱敏策略 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“脱敏策略”,进入脱敏策略页面,在页面上方单击“新建”,创建脱敏策略。 图1 创建脱敏策略 在弹出的新建脱敏页面中填写策略信息,参考表1完成配置。配置完成后单击“确定”即可。 图2 创建脱敏策略界面 表1 创建脱敏策略参数配置 参数 参数描述 *策略名称 用户自定义策略名称,只能包含英文字母、数字、“_”,且长度不能超过64个字符。 描述 为更好地识别脱敏策略,此处加以描述信息,长度不能超过255个字符。 *状态 开启状态表示该策略可供使用。关闭状态表示该策略不能被使用。 *识别规则和脱敏算法 选择敏感数据的识别规则,以及对应的脱敏算法。 *识别规则:选择已经定义的数据识别规则,详情请参考定义识别规则(部分高级特性)。 规则描述:增加相应规则描述。 *算法类型:下拉选择算法类型,详情请参考表1。 *脱敏算法:下拉选择算法类型关联的算法,详情请参考表1。 说明: 如下算法在使用前必须先在脱敏算法处配置密钥,才能正常使用。 哈希算法中的“HMAC-SHA256哈希”算法。 加密算法中的“dws列加密”算法。 不同脱敏算法的更多使用限制,请参考管理脱敏算法。
  • 相关操作 编辑脱敏策略:在脱敏策略页面,单击对应策略操作栏中的“编辑”,即可修改脱敏策略各项参数。 编辑脱敏策略状态:新增的脱敏策略默认为启用状态。当脱敏策略为关闭状态时,表示该策略将不可被静态脱敏任务引用。 需要修改脱敏策略状态时,在脱敏策略页面单击对应脱敏策略中的或,即可启用或关闭脱敏策略。 被静态脱敏任务引用的脱敏策略不能关闭。 删除脱敏策略:在脱敏策略页面,单击对应策略操作栏中的“删除”,即可删除策略。当需要批量删除时,可以在勾选脱敏策略后,在列表上方单击“批量删除”。 注意,被静态脱敏任务引用的策略不能被删除。若要删除已引用的策略,需要先修改引用关系,再进行删除操作。 删除操作无法撤销,请谨慎操作。
  • 保护方式 隐私保护管理提供以下敏感数据保护方式: 静态脱敏 数据静态脱敏,可以防止隐私数据在未经脱敏的情况下从企业流出。满足企业既要保护隐私数据,同时又保持监管合规,满足企业合规性。敏感数据通过静态脱敏,提供内置高效、丰富的脱敏算法,对原始数据中敏感数据进行掩码、截断、hash等,并将脱敏后的数据写入到目标端数据表。而目标表数据可以用来对外提供数据服务,为数据安全使用提供基础保障。 动态脱敏 在数据安全组件创建动态脱敏策略后,系统会将动态脱敏策略同步到数据源服务,由数据源对数据列按照指定规则进行动态脱敏。当策略中指定的用户和用户组在访问敏感数据时,系统会直接返回由数据源动态脱敏后的数据,保护敏感数据不被泄露。 数据水印 数据安全支持将水印标记嵌入到原始数据,保证数据的可用性。加入水印后的数据具有透明性、可用性、隐蔽性,不易被外部发现破解。数据泄漏后能够溯源水印标识,从而对安全事件精准定位追责。通过数据水印嵌入后的敏感数据一旦发生数据泄露,数据溯源可以通过导入泄露文件运行溯源任务提取水印标识,精准定位泄露单位及责任人。 文件水印 文件水印支持如下两种场景,能够将水印注入数据文件中,实现对安全事件精准定位追责。 对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。 对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 动态水印 在数据安全组件开启数据开发动态水印功能并创建动态水印策略后,当策略中指定的用户组或角色在数据开发组件中转储或下载敏感数据时,数据开发组件会为敏感数据注入暗水印,保护敏感数据不被泄露。
  • 约束与限制 仅DAYU Administrator、Tenant Administrator用户或者数据安全管理员可以创建、修改或删除密级权限管控策略,其他普通用户无权限操作。 密级权限管控仅支持对数据地图中已标记密级的字段在数据预览时进行权限管控,不支持对已标记密级的表进行权限管控。 用户/用户组和密级共同唯一标识一条密级权限管控策略,因此不支持创建同用户/用户组、同密级的策略。 同用户/用户组如果对应多个密级,则以最高密级为准进行密级权限管控。
  • 创建敏感数据管控策略 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“敏感数据管控”,进入敏感数据管控页面。 敏感数据管控页面的策略列表中,已有数据安全预置的默认策略,该策略默认给所有用户最大的密级访问权限。 图1 进入敏感数据管控页面 单击“新建”,新建密级权限管控策略页面,参数配置参考表1。 图2 新建密级权限管控策略参数配置 创建密级权限管控策略参数配置说明: 表1 配置策略参数 参数名 参数说明 *用户类型 选择为用户或用户组进行密级权限管控。 *用户名称 选择当前实例所有工作空间成员中的用户或用户组。 *密级 选择指定用户/用户组的指定密级,则指定用户/用户组仅能访问资产密级小于等于指定密级的资产。 *权限类别 当前仅支持数据地图中的数据预览权限。 单击“保存”,完成密级权限管控策略创建。 密级权限管控策略创建完成后,需要删除默认策略,以使新建的策略生效。
  • 发现敏感数据并手工修正 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“敏感数据分布”,进入敏感数据分布页面。 图1 进入敏感数据分布页面 在敏感数据分布页面,您可以通过如下两种方式之一来查看敏感数据发现结果并进行手工修正。推荐您使用方式1,相比于方式2,方式1支持修改数据密级、分类,无需切换页面即可完成敏感数据查看与修正,并支持批量操作。 (推荐)方式1:在“敏感数据分布”页签,单击展开数据源详情,查看敏感数据情况,并手工修正数据密级、分类以及数据状态。 确认:确认该条识别结果为有效状态,“未确认”或“无效”状态的规则可以进行确认操作。静态脱敏任务可以基于有效状态的识别规则进行脱敏。 忽略:确认该条识别结果为无效状态,“有效”状态的规则可以进行忽略操作。静态脱敏任务无法选择到未确认/无效状态的识别规则进行脱敏。 数据同步:如果在敏感数据发现任务中勾选了“手动同步数据识别结果”,则还需要手动单击“数据同步”,才能将识别到的敏感数据同步到数据地图组件(同步数据前需确保已在数据目录中完成元数据采集任务,否则会同步失败)。 删除:删除当前发现的字段结果。 图2 查看敏感数据分布并手工修正 方式2:选择“数据发现”页签。然后通过搜索数据连接名称,找到待查看的敏感数据。最终单击“明细”查看敏感数据明细内容。 图3 数据发现 图4 查看明细内容 然后切换到“手工修正”页签,查找待修正的规则名称,单击“确认”、“忽略”或“数据同步”,手工修正数据状态。 确认:确认该条识别结果为有效状态,“未确认”或“无效”状态的规则可以进行确认操作。静态脱敏任务可以基于有效状态的识别规则进行脱敏。 忽略:确认该条识别结果为无效状态,“有效”状态的规则可以进行忽略操作。静态脱敏任务无法选择到未确认/无效状态的识别规则进行脱敏。 数据同步:如果在敏感数据发现任务中勾选了“手动同步数据识别结果”,则还需要手动单击“数据同步”,才能将识别到的敏感数据同步到数据地图组件(同步数据前需确保已在数据目录中完成元数据采集任务,否则会同步失败)。 图5 修正敏感数据
  • 前提条件 已完成敏感数据规则组定义,请参考定义识别规则分组。 已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)类型的数据连接,请参考创建DataArts Studio数据连接。 DLI敏感数据发现时,需要提前准备DLI通用队列,当前暂不支持Spark版本为3.3.1的通用队列。 如需将识别的敏感数据自动同步到数据地图组件,则必须由DAYU Administrator、Tenant Administrator或者数据安全管理员用户创建、运行或调度任务。 敏感数据同步到数据地图组件时,如需将敏感数据的分类同步成功,需要同时满足如下前提: 已在数据目录组件,对数据表成功进行过元数据采集,详见元数据采集任务。 管理中心组件对应的数据连接,已开启“元数据实时同步”功能,详见创建DataArts Studio数据连接。
  • 创建数据识别规则组 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单击左侧导航树中的“数据识别规则”,进入数据识别规则页面。 单击页面上方“规则分组”页签,进入分组列表页面。 图1 新建数据识别规则组 单击“新建”,输入新建分组名称和描述,参数设置参考表1,并勾选左侧列表中的识别规则。配置完成后单击“确定”即可。 图2 新建分组参数配置 您所勾选的规则将显示在右侧列表中,右侧已选列表中,已选规则可以通过单击操作来取消勾选。 表1 参数配置表 配置 说明 *分组名称 规则组名称只能包含中文、英文字母、数字和下划线。 建议包含规则含义,避免无意义的描述,以便于使用中能快速选择需要的规则组。 分组描述 为更好地识别规则组,此处加以描述信息。
  • 相关操作 编辑识别规则:在识别规则页面,单击对应识别规则操作栏中的“编辑”,即可修改识别规则关联的密级、分类和描述。如果为自定义规则,还支持修改识别规则和正则表达式。 编辑识别规则状态:新增的识别规则默认为启用状态。当识别规则为关闭状态时,表示该规则将不可被添加到识别规则组。 需要修改识别规则状态时,在识别规则页面单击对应识别规则中的或,即可启用或关闭对应规则。 删除识别规则:在识别规则页面,单击对应识别规则操作栏中的“删除”,即可删除识别规则。当需要批量删除时,可以在勾选识别规则后,在列表上方单击“批量删除”。 被引用的数据识别规则无法直接删除,需要先解除引用关系后才能删除。 删除操作无法撤销,请谨慎操作。 测试内置规则模板:在“内置规则模板”页签可查看所有内置规则模板,并且根据输入的自定义样例数据,测试验证内置规则模板的识别结果。
  • 创建数据识别规则 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 在数据安全控制台左侧的导航树中单击“数据识别规则”,进入数据识别规则页面。 在“识别规则”页面单击“新建”,创建识别规则。 图1 新建识别规则 新建规则参数配置请参考表1,参数配置完成单击“确定”即可。 图2 规则配置 表1 配置识别规则参数说明 配置 说明 *规则类型 即规则所属分类,支持按模板添加内置规则和自定义规则。 *数据密级 对配置的数据进行等级划分。如果现有的分级不满足需求,请进入数据密级页面进行设置,详情请参见定义数据密级。 数据分类 对配置的数据进行分类划分。如果现有的分类不满足需求,请进入数据分类页面进行设置,详情请参见定义数据分类。 规则描述 对当前规则进行简单描述。 内置 *规则模板 规则类型选择“内置”,呈现此参数。 系统内置了80+条敏感数据识别规则,可对个人敏感信息(银行卡、信用卡等)、个人基本资料(手机号码、电子邮箱等)、网络身份标识信息(IPv4地址、IPv6地址等)等敏感信息进行识别和脱敏。内置的敏感数据识别规则可在“内置规则模板”页签查看。 选择内置规则后,可输入测试数据,测试能否通过内置规则识别。 *规则名称 规则类型选择“内置”,规则名称自动关联分类模板生成。 自定义 *规则名称 规则类型选择“自定义”,您可以自行填写分类名称,名称为必填项。建议包含规则含义,避免无意义的描述,以便于使用中能快速选择需要的规则。 说明: 定义数据识别规则,名称必须唯一。 *识别规则 规则类型选择“自定义”,呈现此参数,支持正则表达式。 当选择“无”,表示关联了该规则的敏感数据发现任务不生效。无法自动为数据资产分类,需要您手动添加分类。 *正则表达式 识别规则选择“正则表达式”时,呈现此参数。 内容识别:勾选此项后输入自定义正则表达式,该表达式将用于数据内容识别。内容识别正则表达式举例:“^男$|^女&”。 列名识别:勾选此项后输入自定义正则表达式,该表达式将用于字段名精确匹配和模糊匹配两种方式,当前支持多个字段匹配。列名识别正则表达式举例:“age|years”。 备注识别:勾选此项后输入自定义正则表达式,例如“.*comment.*”代表模糊匹配备注。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全