云服务器内容精选

  • 操作步骤 登录图引擎服务管理控制台。 在左侧导航栏,选择“图管理”。 在图管理列表中,选择需要导入数据的图,在“操作”列选择“导入”。 图1 导入数据 在弹出的导入提示框中,选择以下参数。 图集群(持久化版图会有此项):持久化版的图在创建时会自动升级为多图集群,一个图集群下可以包含多个图实例,具体可参见多图管理(持久化版)。 元数据:可选择已有元数据或创建新的元数据,具体操作可参考创建元数据。 边数据集:选择对应的边数据集。 点数据集:选择对应的点数据集。若不选择,则以边数据集中的点作为点数据集来源。 日志存储路径:用于存储导入图过程中不符合元数据定义的点、边数据集和详细日志。存储在OBS中可能会产生费用,请及时删除。 边文件中包含SortKey(持久化版图有此选项):通过配置不同SortKey的值来区分重复边(源点,终点,Label三者都相同的边)。 边处理:包括“允许重复边”,“忽略之后的重复边”,“覆盖之前的重复边”和“重复边忽略Label”。 边处理的具体含义如下: “边处理”:重复边默认起点和终点相同,当考虑label时,表示边的起点、终点和label相同才为重复边。 “允许重复边”:表示起点到终点之间可以有多条边。 “忽略之后的重复边”:表示起点和终点之间有多条边时,仅保留最先读入的那条边。 “覆盖之前的重复边”:表示起点和终点之间有多条边时,仅保留最后读入的那条边。 “重复边忽略Label”:忽略label时,表示边的起点、终点相同即为重复边。 导入类型:包括“在线导入”和“离线导入”。 持久化版图支持多图管理需要选择图名称,不支持导入类型。 边数据集和点数据集当前仅支持英文路径和文件夹格式。 目前只支持从OBS中选择边数据集和点数据集,建议您提前将数据文件存储至OBS中,导入OBS的操作请参见OBS《快速入门》。 所选边数据文件或点数据文件中的“Label”和“Label”中“Property”的顺序需与所选元数据文件中的一致,否则会提示“所选边数据/点数据文件与元数据文件不匹配”而无法创建图。关于GES图数据的格式的具体内容可参考图数据的格式。 图数据(包含元数据、边数据集、点数据集)需按照模板中的格式导入。模板中已包含一份电影数据,可单击“下载模板”后直接导入。 单击“确定”完成导入。
  • 配置方式 信息抽取分为结构化抽取和非结构化抽取,其适用范围和抽取方式如表1所示。 表1 配置方式说明 配置方式 适用范围 具体方式 操作指引 结构化抽取 基础数据格式为xlsx、csv、json格式 交互界面配置:通过输入实体类型、抽取函数及抽取前后的数据字段,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 交互界面配置 代码编辑:将交互界面中的配置转换为json格式配置,通过编辑json配置信息,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 代码编辑 非结构化抽取 基础数据格式为txt文本的自然语言短句 通过选择合适的算法,完成信息抽取配置。 可选择已有的预置模型模板,也可选择您自定义的模型。 非结构化抽取 在通过结构化抽取方式进行信息抽取时,交互界面配置与代码编辑配置可以相互切换。 信息抽取配置完成后,鼠标悬浮在信息抽取方框区域,显示清空图标,单击后可一键清空信息抽取配置。
  • 步骤1:准备数据 在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。 由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下: 数据格式 数据格式为短文本txt格式,文件内容示例如下: 张三的生日是1990年1月1日,身高175cm,出生于北京。 李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。 ... ... 数据划分 训练数据:80%数据用于训练信息抽取模型。 验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。 训练数据量 训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。 训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。 三元组类型 本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。 表1 三元组类型 subject_type predicate object_type 人物 毕业院校 学校 影视作品 改编自 作品 影视作品 制片人 人物 人物 身高 Number 人物 丈夫 人物 影视作品 主演 人物 人物 出生日期 Date 影视作品 编剧 人物 影视作品 导演 人物 人物 祖籍 地点 人物 父亲 人物 人物 出生地 地点 影视作品 出品公司 企业 人物 妻子 人物 人物 母亲 人物 人物 国籍 国家 影视作品 上映时间 Date 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。 登录OBS服务,创建桶和文件夹,用于存放数据集。 创建名称为“kg-model”的OBS桶。 创建名称为“model-data”的文件夹用于存放未标注的数据集。 创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。 创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。
  • 知识融合 知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。 如图1所示的两条数据,这两条数据中的“元鲜”实际上是同一个人,因此需要对这两条数据进行融合。 图1 知识融合示例 知识融合过程请见图2,融合过程说明请见表1。 图2 知识融合 表1 知识融合说明 融合过程 过程说明 初步筛选 知识融合需要初步筛选与融合标识符相似的实体数据。 判断属性相似度 初步筛选与融合标识符相似的数据后,需要配置相似属性和相似度函数,并判断数据之间的属性相似度。 融合知识 对属性相似度均达到阈值条件的数据进行融合。 综上所述,在创建图谱的过程中,需要配置知识融合的融合标识符、待融合的实体、相似度函数和相似度阈值等参数,KG服务会根据所配置的参数进行知识融合。配置知识融合的详细步骤请见配置知识融合。