云服务器内容精选

  • 配置方式 信息抽取分为结构化抽取和非结构化抽取,其适用范围和抽取方式如表1所示。 表1 配置方式说明 配置方式 适用范围 具体方式 操作指引 结构化抽取 基础数据格式为xlsx、csv、json格式 交互界面配置:通过输入实体类型、抽取函数及抽取前后的数据字段,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 交互界面配置 代码编辑:将交互界面中的配置转换为json格式配置,通过编辑json配置信息,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 代码编辑 非结构化抽取 基础数据格式为txt文本的自然语言短句 通过选择合适的算法,完成信息抽取配置。 可选择已有的预置模型模板,也可选择您自定义的模型。 非结构化抽取 在通过结构化抽取方式进行信息抽取时,交互界面配置与代码编辑配置可以相互切换。 信息抽取配置完成后,鼠标悬浮在信息抽取方框区域,显示清空图标,单击后可一键清空信息抽取配置。
  • 步骤1:准备数据 在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。 由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下: 数据格式 数据格式为短文本txt格式,文件内容示例如下: 张三的生日是1990年1月1日,身高175cm,出生于北京。 李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。 ... ... 数据划分 训练数据:80%数据用于训练信息抽取模型。 验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。 训练数据量 训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。 训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。 三元组类型 本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。 表1 三元组类型 subject_type predicate object_type 人物 毕业院校 学校 影视作品 改编自 作品 影视作品 制片人 人物 人物 身高 Number 人物 丈夫 人物 影视作品 主演 人物 人物 出生日期 Date 影视作品 编剧 人物 影视作品 导演 人物 人物 祖籍 地点 人物 父亲 人物 人物 出生地 地点 影视作品 出品公司 企业 人物 妻子 人物 人物 母亲 人物 人物 国籍 国家 影视作品 上映时间 Date 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。 登录OBS服务,创建桶和文件夹,用于存放数据集。 创建名称为“kg-model”的OBS桶。 创建名称为“model-data”的文件夹用于存放未标注的数据集。 创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。 创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。
  • 自定义创建图 登录华为云账号,进入图引擎服务管理控制台,单击右上角的“创建图”按钮,进入创建图页面。 选择“区域”,即集群工作区域,可在页面左上角下拉栏选择。 在创建图页面单击“自定义创建”tab页进入自定义创图界面。 在“服务选型”页面设置以下参数: 图1 图名称和软件版本 参数 说明 图名称 可自行设置或使用系统默认名称。图创建后,不支持修改图名称。 图名称的长度需同时满足如下条件: 4~50个字符,且必须以字母开头。 字母不区分大小写。 只能包含字母、数字或下划线,不能包含其他特殊字符。 GES软件版本 系统默认当前最新版本,目前只能选择当前默认的版本号。 选择网络信息,包含“虚拟私有云”、“子网”、“安全组”、“公网访问”和“企业信息”。 图2 网络信息 参数 说明 虚拟私有云 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 选择需要创建集群的VPC,单击“查看虚拟私有云”,可进入VPC服务查看已创建的VPC名称和ID。 说明: 若您的账号下有vpc,则自动选择一个填充,您可自行更改;若无vpc,则需要创建一个新的vpc,创建成功后,可自动填充。 子网 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 选择需要创建集群的子网,可进入VPC服务查看VPC下已创建的子网名称和ID。 安全组 安全组是一个逻辑上的分组,为同一个VPC内具有相同安全保护需求并相互信任的弹性云服务器提供访问策略。 单击“如何配置安全组”可了解配置安全组的具体操作。 单击“查看安全组”可了解安全组详情。 公网访问 选择公网访问的方式,用户可根据自身需求选择。 “暂不使用”:不使用弹性IP的图实例并且不能与互联网互通,仅可通过私有网络中已部署的弹性云服务器连接当前图实例使用。 “现在购买”:服务将自动为图实例分配独享带宽的弹性IP,以支持通过弹性IP从互联网对图实例进行访问。同时,服务将使用租户权限在当前项目下自动创建以ges_agency_default为前缀的授权委托以支持弹性IP的绑定处理。 “使用已有”:为图实例绑定指定的弹性IP,通过弹性IP可以从互联网对图实例进行访问。 单击“创建弹性IP”可进入VPC服务创建弹性公网IP。 企业项目 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。 在页面上单击“新建企业项目”跳转至“企业项目管理”页面进行创建。 标签 为资源添加标签。在输入框中,输入标签键和标签值,单击“添加”按钮即可将标签添加在标签框中。 添加后您可以在“图管理”页面的图详情中查看到给该图添加的标签,也可以在“图管理”页面中筛选同一标签下的图。 说明: 如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,建议在TMS中创建预定义标签。 安全模式 开启安全模式后,访问图实例将进行通讯加密(表示调用API时只能采用HTTPS协议),该功能开启后对性能有一定的影响。 密码算法 有两种方式可供选择。 通用加密算法(不支持SM系列商密算法):该状态下所有部件敏感数据存储、传输均使用通用加密算法。主要适用于国外局点和没有特殊算法需求的局点。 支持SM系列商密算法(兼容国际通用算法):该状态下所有部件敏感数据存储使用SM系列商密算法,数据传输兼容SM系列商密算法和国际算法。 填写图相关参数。 图3 图相关参数 参数 说明 是否支持跨AZ高可用 该选项表示是否支持跨可用区部署集群。 开启该选项,图实例分布在不同可用区(AZ)增强可靠性。 用途 创建图的用途。 “企业生产”:支持高可靠,高并发,适合企业生产及大规模应用时使用。 “开发学习”:完整功能体验,适合开发者学习使用。 产品类型 可选的产品类型。 内存版:容量有限,最大可支持到百亿边。基于内存存储和计算,预置丰富的算法,支持Gremlin和Cypher查询语言。 持久化版:容量无限。基于分布式KV数据库做存储和计算的新一代图数据库,有更高的性能,仅支持Cypher查询语言。 计算类型 计算类型。 弹性云服务器:是具有完整硬件、操作系统、网络功能,并且运行在一个完全隔离环境中的计算机系统。 CPU架构 CPU架构:目前支持“X86计算”和“鲲鹏计算”架构。 图规格(边数) 以边为单位,根据用户当前的配额,系统会提示可创建的图的数量以及边数。 “企业生产”和“开发学习”有不同的规格。 “开发学习”:目前只有“一万边”一种规格,无论在哪种产品类型下。 “企业生产”:产品类型不同,图规格不同。 “内存版”:目前可选择“一百万边”、“一千万边”、“一亿边”,“十亿边”,“十亿边-增强版”,“一百亿边”六种规格。 “持久化版”:目前可选择“十亿边”,“一百亿边”和“一千亿边”三种规格。 说明: 图的规模,以图的边数为依据,非精确值。如果图的点数和属性较多的话,建议您申请更大规模图。 点ID类型 持久化版目前支持固定长度String和哈希两种点ID类型。 固定长度String格式:实际点ID直接用于内部存储与计算,需指定一长度,实际点ID不可超过此长度。长度过大可能影响查询性能,建议根据数据集状态进行设置。 哈希格式下,内部计算时将实际点ID转换成哈希码进行存储与计算,对实际点ID长度无限制,但是存在极低的概率(约10^(-43))出现点ID碰撞。 说明: 若用户无法确定点ID的最大长度,建议选择哈希类型。 “高级配置”:包括“默认配置”或“自定义”。 “默认配置”:选择系统设定的默认值。 “自定义”: 当您选择产品类型为“内存版”时,自定义包括“加密图实例”“操作审计”和“启用细粒度权限控制”。 图4 内存版高级配置 参数 说明 加密图实例 是否对图实例进行加密。“密钥源”默认为“KMS”。“密钥名称”用于选择对应的密钥。 说明: KMS密钥的禁用或删除会影响实例的功能。 启用细粒度权限控制 开启后可对特定Label的特定属性设置遍历(traverse)、读、写权限。 操作审计 是否开启操作审计。 “LTS日志组”用于选择对应的日志组。单击“查看日志组列表”可以在日志管理中查看日志的相关信息。 说明: 日志存储到LTS会收取费用,具体可参考LTS收费标准。 多标签 开启该选项后,图中同一个点可以同时设置多个label。 说明: 仅内存版支持配置多标签开关。 不同label对应不同的属性,调用查询点详情API时会返回点上所有Label和对应属性的信息,属性过滤相关查询会对点上不同的Label都进行过滤。 多图 开启该选项后,默认支持多图集群,一个图集群下可以包含多个图实例,不同的图实例可以分配不同的数据,方便用户同时对多个图数据进行分析。 当您选择产品类型为“持久化版”时,自定义包括“是否支持HyG计算引擎”“启用细粒度权限控制”。 图5 持久化版高级配置 参数 说明 是否支持HyG计算引擎 HyG是一个高性能分布式图计算框架,支持了诸多图分析算法。如果用户有复杂的图分析场景,可以使用HyG引擎来完成。 启用细粒度权限控制 开启后可对特定Label的特定属性设置遍历(traverse)、读、写权限。 单击“确认创建”。进入“规格确认”页面。 在“规格确认”页面,确认信息无误后,单击“提交”开始创建图。 提交成功后系统将自动跳转到“完成”页面,单击“返回任务中心”可查看所创建图的状态及运行结果。 父主题: 创建图
  • 操作步骤 登录图引擎服务管理控制台。 在左侧导航栏,选择“图管理”。 在图管理列表中,选择需要导入数据的图,在“操作”列选择“导入”。 图1 导入数据 在弹出的导入提示框中,选择以下参数。 元数据:可选择已有元数据或创建新的元数据,具体操作可参考创建元数据。 边数据集:选择对应的边数据集。 点数据集:选择对应的点数据集。若不选择,则以边数据集中的点作为点数据集来源。 日志存储路径:用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。存储在OBS中可能会产生费用,请及时删除。 边处理:包括“允许重复边”,“忽略之后的重复边”,“覆盖之前的重复边”和“重复边忽略Label”。 边处理的具体含义如下: “边处理”:重复边默认起点和终点相同,当考虑label时,表示边的起点、终点和label相同才为重复边。 “允许重复边”:表示起点到终点之间可以有多条边。 “忽略之后的重复边”:表示起点和终点之间有多条边时,仅保留最先读入的那条边。 “覆盖之前的重复边”:表示起点和终点之间有多条边时,仅保留最后读入的那条边。 “重复边忽略Label”:忽略label时,表示边的起点、终点相同即为重复边。 导入类型:包括“在线导入”和“离线导入”。 持久化版图支持多图管理需要选择图名称,不支持边处理和导入类型。 边数据集和点数据集当前仅支持英文路径和文件夹格式。 目前只支持从OBS中选择边数据集和点数据集,建议您提前将数据文件存储至OBS中,导入OBS的操作请参见OBS《快速入门》。 所选边数据文件或点数据文件中的“Label”和“Label”中“Property”的顺序需与所选元数据文件中的一致,否则会提示“所选边数据/点数据文件与元数据文件不匹配”而无法创建图。关于GES图数据的格式的具体内容可参考图数据的格式。 图数据(包含元数据、边数据集、点数据集)需按照模板中的格式导入。模板中已包含一份电影数据,可单击“下载模板”后直接导入。 单击“确定”完成导入。
  • 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。 图2 知识融合 表1 知识融合说明 融合过程 过程说明 初步筛选 知识融合需要初步筛选与融合标识符相似的实体数据。 判断属性相似度 初步筛选与融合标识符相似的数据后,需要配置相似属性和相似度函数,并判断数据之间的属性相似度。 融合知识 对属性相似度均达到阈值条件的数据进行融合。 综上所述,在创建图谱的过程中,需要配置知识融合的融合标识符、待融合的实体、相似度函数和相似度阈值等参数,KG服务会根据所配置的参数进行知识融合。配置知识融合的详细步骤请见配置知识融合。