华为云用户手册

  • 编辑元素链接配置 在 知识图谱 针对已创建的元素链接支持编辑操作。 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击已创建的图谱卡片,进入图谱详情页面。 单击知识图谱问答KBQA卡片下方的“问答配置”,默认进入“元素链接配置”页面。 单击操作列的“编辑”,在元素配置页面编辑配置信息,参数说明请参见配置元素链接(交互)。 也可以用代码编辑元素配置信息,请见配置元素链接(代码编辑)。 不支持更改概念,仅支持编辑概念的元素链接配置和配置描述。 图1 编辑元素配置 编辑完成,单击“保存”。 父主题: 配置元素链接
  • 功能区操作 创建本体界面右上角的功能区,可基于当前本体进行一系列操作。 图11 功能区 表2 功能区操作 图标 说明 保存当前界面的概念节点和关系曲线。 清空界面,即清空当前界面的概念节点和关系曲线。 导出当前界面的概念节点和关系曲线至OBS。导出前需要提前创建好OBS桶,详情请见OBS添加桶。 单击图标,在导出本体的对话框中填写“导出文件名”,选择“OBS桶”和“存储路径”,然后单击“确定”。 导出文件名 填写导出本体的文件名。 OBS桶 选择存放本体文件的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择存放本体文件的OBS路径。 从OBS导入本体。导入前将待导入的本体文件(json格式)上传至OBS中,详情请参见OBS添加桶和OBS上传文件或文件夹。 说明: 此处导入的本体会覆盖当前正在编辑的本体。 单击图标,在导入本体的对话框中选择“OBS桶”和“存储路径”,然后单击“确定”。 OBS桶 选择提前准备的本体文件存放的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择提前准备的本体文件存放在OBS桶中的路径。 单击图标可查看创建本体所有操作的快捷键。 单击图标放大本体。 单击图标缩小本体。 单击图标使本体以适配大小显示。 单击图标撤销上一个操作。 单击图标恢复上一个已撤销的操作。
  • 编辑概念 右键单击概念图标,选择“编辑”。 或双击概念图标。 左侧弹出概念编辑框。 在概念编辑框中,按表1编辑“概念名称”、“Icon”和“属性”。 图3 编辑概念 表1 编辑概念 参数 说明 概念名称 概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 Icon 单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。 属性 编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”。 添加属性 单击“添加属性”可添加属性文本框,在文本框中填写属性的“名称”,选择“单值/多值”、“类型”、“操作”。 “名称”:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 “单值/多值”:选择当前属性是单值还是多值。 “类型”:选择属性的类型,“单值”可选类型有“single_string”、“single_int”、“single_double”、“single_bool”,“多值”可选类型有“set_string”、“set_int”、“set_double”。 填写完概念的属性后,单击“操作”列的,保存信息。 编辑属性 单击已有属性“操作”列的,可对属性的“名称”重新编辑,也可重新选择“单值/多值”、“类型”。 修改完属性后,单击“操作”列的,保存信息。 复制属性 单击已有属性“操作”列的,复制当前属性。 删除属性 单击已有属性“操作”列的,删除当前属性。 填完信息后,单击“保存”。
  • 操作步骤 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击已创建的图谱卡片,进入图谱详情页面。 单击知识图谱问答KBQA卡片下方的“问答配置”,默认进入“元素链接配置”页面。 单击“测试”,在对话框中输入问题,然后单击“测试”。 会立即显示“返回结果”,包括问题中的“链接词”、“位置”、“链接类型”、“链接分数”和“链接结果”。 单击操作列的“查看详情”,可查看json格式的结果。 图1 元素链接测试
  • 配置元素链接(交互) 针对配置基本信息中选择的概念,对该概念以及概念属性、与该概念有关的关系进行链接配置。配置模式选择“交互”。 概念CONCEPT 元素名称:默认显示配置基本信息中选择的概念名称。 同义词:概念的同义词,比如概念“电影”的同义词可配置为“影片”、“片子”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片的主演是谁”相似度计算时,本体“电影”所占比例大小。 实体实例权重:匹配问答与配置元素的近似度时,该元素对应实例所占比例。例如问答“不止英雄影片的主演是谁”相似度计算时,实体实例“不止英雄”所占比例大小。 图3 概念链接 概念属性CONCEPT_PROPERTY 元素名称:显示当前概念的所有属性,可切换任意一个属性对其进行链接配置。 同义词:属性的同义词,比如属性“上映日期”的同义词可配置为“播出”、“公映”、“首映”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片是1月1日上映吗”相似度计算时,本体属性“上映日期”所占比例大小。 属性值权重:匹配问答与配置元素的近似度时,该元素对应实例所占比例。例如问答“不止英雄影片是1月1日上映吗”相似度计算时,属性实例“1月1日”所占比例大小。 图4 概念属性链接 概念间关系CONCEPT_RELATION 元素名称:显示当前概念发出的所有关系,可切换任意一个关系对其进行链接配置。 同义词:概念间关系的同义词,比如关系“主演”的同义词可配置为“演员”、“主要角色”。 权重:匹配问答与配置元素的近似度时,该元素所占比例。例如问答“不止英雄影片由谁主演”相似度计算时,本体关系“主演”所占比例大小。 图5 概念间关系链接
  • 发布元素链接 如果已创建的元素链接经过测试已满足业务要求,知识图谱支持发布元素链接,发布后元素链接将会在KBQA问答体验中生效。 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击已创建的图谱卡片,进入图谱详情页面。 单击知识图谱问答KBQA卡片下方的“问答配置”,默认进入“元素链接配置”页面。 单击右上角的“发布”,在对话框中单击“确定”。 完成元素链接发布。 图1 发布元素链接 父主题: 配置元素链接
  • 导出元素配置到OBS 知识图谱控制台支持将已创建的元素配置文件导出至OBS。 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击已创建的图谱卡片,进入图谱详情页面。 单击知识图谱问答KBQA卡片下方的“问答配置”,默认进入“元素链接配置”页面。 勾选已创建的元素配置,单击右上角的“导出”。 在对话框中,输入“导出文件名”,选择存储元素配置文件的“OBS桶”和“存储路径”,单击“确定”。
  • KBQA简介 知识图谱问答服务(Knowledge Base Question Answering,简称KBQA)利用机器对自然语言分析与处理能力,理解用户所提出的问题,并利用知识图谱中的结构化知识进行查询、推理,找到解决该问题的精准答案并反馈给用户,协助用户解决不同类型的问题。KBQA提供如下问答配置功能: 配置元素链接 通过配置元素链接,即配置图谱中概念以及概念属性、概念间的关系的同义词和权重,对用户输入的文本进行语义解析,识别出其中与图谱相关联的多种类型的元素。元素链接包括本体链接、实体链接、属性值链接,以及其他关键词链接等。 配置问答模板 根据用户问答查询意图自定义问答模板,用来识别用户问句的真实查询意图。 问答体验 问答配置完成后,可在问答体验页面针对当前图谱的知识提出问题,KBQA服务会根据您的提问查询和推理当前知识图谱的知识库,并返回精准答案。 父主题: 知识图谱问答KBQA服务
  • 操作步骤 在普通配置构建图谱页面,单击“知识映射”,页面下方弹出“知识映射”对话框,单击右侧按钮可以放大对话框。 图1 知识映射 “编辑方式”选择“表格配置模式”,填写知识映射的相关信息。 配置实体的概念映射:在对应实体下方的“概念映射”区域填写映射前的实体类型字段。 配置实体的属性映射:在对应实体下方的“属性映射”区域填写映射到实体各个属性的“抽取项”。 配置实体的关系映射:在对应实体下方的“关系映射”区域填写映射到各个实体关系的“抽取项”和“尾实体类型”。 单击“保存”,完成知识映射。 若创建多个数据源,请完成所有数据源的知识映射配置。配置数据源请参见配置数据源。
  • 操作步骤 在普通配置构建图谱页面,单击“知识映射”,页面下方弹出“知识映射”对话框,单击右侧按钮可以放大对话框。 图1 知识映射 “编辑方式”选择“代码配置模式”。 在“代码配置模式”页签的编辑框中,输入json格式代码,以映射关系如图2为例,代码示例如下所示: 图2 实体人物的映射关系 { "label_map_configs": { "Film": "电影", "Person": "人物" }, "property_map_configs": [ { "label": "电影", "source_keys": [ "票房" ], "target_key": "票房" }, { "label": "电影", "source_keys": [ "中文名" ], "target_key": "name" }, { "label": "电影", "source_keys": [ "上映时间" ], "target_key": "haha" }, { "label": "人物", "source_keys": [ "中文名" ], "target_key": "name" }, { "label": "人物", "source_keys": [ "国籍" ], "target_key": "国籍" }, { "label": "人物", "source_keys": [ "职业" ], "target_key": "职业" }, { "label": "人物", "source_keys": [ "出生日期" ], "target_key": "出生日期" } ], "relation_map_configs": [ { "source_label": "电影", "target_key": "电影:主演:人物", "source_keys": [ "中文名", "主演", "导演" ], "target_label": "人物" }, { "source_label": "电影", "target_key": "电影:导演:人物", "source_keys": [ "中文名", "主演", "导演" ], "target_label": "人物" } ]} 单击“保存”,完成配置知识映射。
  • 配置步骤 在普通配置构建图谱页面,单击“图谱质检”,页面下方弹出“图谱质检”对话框,单击右侧按钮可以放大对话框。 图1 图谱质检 在“图谱质检”对话框,选择“图谱质检”开关。 图谱质检为非必选流程,关闭和开启状态均不影响图谱构建。开启质检任务后,后台会对当前版本的知识图谱的知识质量和流水线构建进行评估,并生成质检报告,详见查看质检报告。 若不需要进行图谱质检,则关闭“图谱质检”开关,单击“保存”。 若需要进行图谱质检,则打开“图谱质检”开关,单击“保存”。
  • 删除图谱 如果您创建的图谱将不再使用,您可以删除图谱以释放资源。 当前仅支持删除标准版和高级版的图谱,且图谱状态是可用或故障。体验版创建后仅支持体验30天,30天后KG服务会自动删除超过期限的体验版图谱。 当前KG服务仅支持在控制台创建一次体验版图谱,如果体验版图谱到期自动删除,无法再次创建体验版图谱。 登录KG服务管理控制台,默认进入“我的图谱”页面,单击图谱卡片右上角的,即可删除已创建的图谱。
  • 操作步骤 在普通配置构建图谱页面,单击“数据源”,页面下方弹出数据源配置对话框,单击右侧按钮可以放大对话框。 图2 配置数据源 在数据源配置对话框,填写相关信息。 “选择数据格式”:构建图谱的数据源格式,包括“ CS V”、“XLSX”、“JSON”、“短文本”,详情请见数据格式要求。 “选择数据源文件”:单击,弹出“选择数据源文件”对话框,选择数据源存放在OBS的路径: “OBS桶”:选择数据源文件存放的OBS桶。确保OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 “存储路径”:选择数据源文件存放在OBS桶的文件路径。 “为OBS桶授权”:如果OBS桶未授权,请勾选“确认授权”。 选择完成后,单击“确定”。 “实体类型字段”:当数据格式选择“JSON”时,在“实体类型字段”文本框中填写基础数据中描述实体类型的函数字段。 例如以一个有关于电影的图谱数据为例,选择数据格式和数据源文件后,下方可预览基础数据。 图3 数据源配置 填写完信息后,单击“保存”。 如果您待创建的图谱只需要一个数据源,那么您已完成数据源的配置。 如果您待创建的图谱需要输入多个数据源,请进入下一步。 单击“数据源”下方的“添加数据源”,添加新的数据源,按步骤1~3,配置新的数据源。
  • 问答体验 在问答体验框中,针对当前知识图谱的知识提出问题,KBQA服务会根据您的提问查询和推理当前知识图谱的知识库,并返回精准答案。 常见的问题类型及返回答案如下: 列表型问题 通过枚举方式列举出所有的答案实体及实体属性。 例如: Q:不止英雄的主演有哪些? A:列举所有主演名字。 谓词型问题 直接返回对应的实体信息。 例如: Q:卜发的出生日期是什么时候? A:人物卜发的出生日期。 复杂谓词型问题 直接返回列表式的对应实体信息。 例如: Q:不止英雄的主演的出生日期是什么时候? A:不止英雄所有主演的出生日期。
  • 功能介绍 针对云服务没有构建知识图谱的现状,华为云为各类企业提供 知识图谱服务 ,使用户通过配置化形式自动完成知识图谱的构建流程。知识图谱服务提供图谱创建、本体管理、图谱管理等功能,覆盖创建本体、配置数据源、选择本体、信息抽取、知识映射、知识融合、图谱质检等业务,具体功能如图1和表1所示。 图1 知识图谱流水线平台功能 表1 知识图谱功能说明 功能 说明 本体管理 支持创建本体。 支持查看、编辑本体信息。 支持导出本体。 模型管理 支持自定义信息抽取模型,利用模型进行信息抽取。 支持创建、发布信息抽取模型版本。 知识图谱管理 支持创建知识图谱流水线任务,生成知识图谱。 支持编辑知识图谱流水线任务信息,包括数据源选择、图谱本体配置、信息抽取配置、知识映射信息配置、知识融合信息配置、图谱质检配置。 支持增量数据,更新图谱。 支持图谱预览、图谱版本管理。
  • 构建图谱流程 KG服务为用户提供了两种方式构建图谱,不同的方式所需要的功能不同。基于不同的图谱构建方式,梳理了使用KG服务的主要流程。 图2 构建图谱流程 表2 构建图谱流程说明 主任务 说明 详细指导 购买知识图谱&选择图谱规格 在创建知识图谱之前,需要购买图谱并选择图谱规格。 购买知识图谱 智能一键构建图谱 只需提供源数据,无需其他配置,即可快速构建图谱。 智能一键构建图谱 普通配置构建图谱 通过配置数据源、配置图谱本体、配置信息抽取、配置知识映射、配置知识融合、配置图谱质检,构建适用于自身业务的知识图谱。 普通配置构建图谱
  • 功能区操作 创建本体界面右上角的功能区,可基于当前本体进行一系列操作。 图11 功能区 表2 功能区操作 图标 说明 保存当前界面的概念节点和关系曲线。 清空界面,即清空当前界面的概念节点和关系曲线。 导出当前界面的概念节点和关系曲线至OBS。导出前需要提前创建好OBS桶,详情请见OBS添加桶。 单击图标,在导出本体的对话框中填写“导出文件名”,选择“OBS桶”和“存储路径”,然后单击“确定”。 导出文件名 填写导出本体的文件名。 OBS桶 选择存放本体文件的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择存放本体文件的OBS路径。 从OBS导入本体。导入前将待导入的本体文件(json格式)上传至OBS中,详情请参见OBS添加桶和OBS上传文件或文件夹。 说明: 此处导入的本体会覆盖当前正在编辑的本体。 单击图标,在导入本体的对话框中选择“OBS桶”和“存储路径”,然后单击“确定”。 OBS桶 选择提前准备的本体文件存放的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择提前准备的本体文件存放在OBS桶中的路径。 单击图标可查看创建本体所有操作的快捷键。 单击图标放大本体。 单击图标缩小本体。 单击图标使本体以适配大小显示。 单击图标撤销上一个操作。 单击图标恢复上一个已撤销的操作。
  • 编辑概念 右键单击概念图标,选择“编辑”。 或双击概念图标。 左侧弹出概念编辑框。 在概念编辑框中,按表1编辑“概念名称”、“Icon”和“属性”。 图3 编辑概念 表1 编辑概念 参数 说明 概念名称 概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 Icon 单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。 属性 编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”。 添加属性 单击“添加属性”可添加属性文本框,在文本框中填写属性的“名称”,选择“单值/多值”、“类型”、“操作”。 “名称”:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 “单值/多值”:选择当前属性是单值还是多值。 “类型”:选择属性的类型,“单值”可选类型有“single_string”、“single_int”、“single_double”、“single_bool”,“多值”可选类型有“set_string”、“set_int”、“set_double”。 填写完概念的属性后,单击“操作”列的,保存信息。 编辑属性 单击已有属性“操作”列的,可对属性的“名称”重新编辑,也可重新选择“单值/多值”、“类型”。 修改完属性后,单击“操作”列的,保存信息。 复制属性 单击已有属性“操作”列的,复制当前属性。 删除属性 单击已有属性“操作”列的,删除当前属性。 填完信息后,单击“保存”。
  • 操作步骤 在普通配置构建图谱页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。 在“交互界面”页签填写信息抽取前后的相关字段时,可单击“代码编辑”,切换至“代码编辑”页签,查看json代码。 图1 信息抽取 选择“默认抽取”开关。 图标说明开关处于开启状态。开启后,在每个数据类别中,为每个数据字段建立同名抽取项,抽取函数为${数据字段名}。 图标说明开关处于关闭状态,需要自定义填写信息抽取项。 在“信息抽取”对话框中填写信息抽取项: 每个表/文件中的数据需要设置一个唯一标识符identifier(可以抽取id/编号等可以唯一标识一条数据的内容)。例如,可以设置“url”为唯一标识符。 增加信息抽取项:单击“增加”,即可增加一项抽取信息类型。 删除信息抽取项:单击待删除的信息抽取项操作栏的“删除”,即可删除信息抽取项。 按表1填写“数据类别”,“抽取项名称”和“抽取函数”。 表1 信息抽取项属性说明 属性 说明 数据类别 基础数据中描述实体类型的字段。 抽取项名称 抽取信息后的属性字段。 抽取函数 抽取信息时所使用的引用字段的信息抽取函数,具体请见信息抽取函数。 确认所填写的信息后,单击“保存”,完成信息抽取。 若创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
  • 示例 以创建一个有关于电影的知识图谱为例,抽取信息前后的实体信息如图2所示,展示如何在创建图谱时配置信息抽取。 图2 信息抽取 按配置数据源为待创建的图谱配置数据源。 按配置图谱本体为待创建的图谱选择本体。 在“创建图谱”页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框。 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“交互界面”。 关闭“默认抽取”开关。 在“信息抽取”对话框中填写信息抽取项,按表2填写。 表2 信息抽取项示例 数据类别 抽取项名称 抽取函数 Person identifier ${url} 中文名 regexp_replace(${中文名}, '\(\[link\]@.*?:(/film.*?)\)', '') 国籍 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 职业 ${职业} 出生日期 ${出生日期} url ${url} Film identifier ${url} 中文名 ${中文名} 票房 ${票房} 上映时间 ${上映时间} 导演 regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1) 主演 regexp_extract_all(${主演}, '\(\[link\]@.*?:(/film.*?)\)', 1) url ${url} 示例中字段抽取函数主要有三类,示例如下: ${职业} 直接引用“职业”字段的值,不做任何操作。 regexp_replace(${国籍}, '\(\[link\]@.*?:(/film.*?)\)', '') 将“国籍”字段中符合正则模式的“\(\[link\]@.*?:(/film.*?)\)”替换成空字符串,即删除符合这个pattern的字符串。例如从字段“中国([link]@中国:/film.kg.huawei.com/中国/1122445)”抽取出信息“中国”。 regexp_extract_all(${导演}, '\(\[link\]@.*?:(/film.*?)\)', 1) 抽取出导演字段中,与模式 “\(\[link\]@.*?:(/film.*?)\)” 匹配的数据值,返回的类型是一个列表。例如“"导演":庄伟建([link]@庄伟建:/film.kg.huawei.com/庄伟建),苏万聪([link]@苏万聪:/film.kg.huawei.com/苏万聪)”,抽取信息后为“"导演":/film.kg.huawei.com/庄伟建,/film.kg.huawei.com/苏万聪”。 确认所填写的信息后,单击“保存”,完成信息抽取。
  • 训练模型框架介绍 KG服务提供不同类型的关系抽取模型,以应对用户不同的条件与需求。 KG服务当前提供以下训练模型框架供您自定义模型: DGCNN是一个较为复杂的端到端关系抽取模型,它在使用BERT模型建模语言关系的基础上,利用DGCNN网络额外使用了文本的分词词性信息,这使得它对于待抽取实体的边界识别能力很强。但复杂的模型意味着更多的标注数据需求,推荐平均每类关系三元组标注数据在400以上,所有标注文本样本数量在8000以上。 MRC-BM-v2是一个非常简单的、基于BERT模型、端到端的关系抽取模型,它对于标注数据量的要求非常低,平均每个关系仅需要200组左右标注数据即可训练出一个较好(实测F1值在0.7左右)的模型,平均每个关系标注数据在2000左右模型训练效果达到一个峰值(实测F1值在0.8左右),数据量越多,质量越好,效果会越好。 MRC-BM是旧版本的模型,为兼容保留,新创建模型请使用MRC-BM-v2。
  • 训练数据类型介绍 在创建抽取模型时,需要您提前准备训练数据上传至OBS目录。KG服务当前支持的数据类型包括“Dataset”、“Brat”、“ModelArts”。 Dataset DATASET数据需要用户指定的文件夹中包含两个指定格式与名称的文件:schema.json和train_data.json。前者用来指定需要抽取的关系三元组类型,后者用来存放所有的标注数据。 schema.json一行一句json字符串,表示一种关系三元组类型:“predicate”表示谓词,“subject”表示主语类型,“object”表示宾语类型。例如: {"predicate": "出生地", "subject": "人物", "object": "地点"} train_data.json一行一句json字符串,表示一条标注数据。其中“text”是文本,“spo_list”是spo三元组的list,每个spo三元组包含7个元素,“predicate”为三元组谓词,“object_type”为宾语类型,“subject_type”为主语类型,“object_position”为宾语在文中出现的位置,“subject_position”为主语在文中出现的位置,“object”为宾语词,“subject”为主语词。例如: {"text":"比如钱钟书和杨绛、鲁迅和许广平都只有一个子女","spo_list":[{"predicate":"妻子","object_type":"人物","subject_type":"人物","object":"杨绛","subject":"钱钟书","subject_position":2,"object_position":6},{"predicate":"丈夫","object_type":"人物","subject_type":"人物","object":"钱钟书","subject":"杨绛","subject_position":6,"object_position":2}]} Brat BRAT是一个开源的文本标注工具,主要用于对文本的结构化标注,您可以前往官网下载。KG服务的预置模型框架支持直接利用BRAT关系三元组标注的结果来训练模型。注意您的标注任务仅限于BRAT的关系三元组标注,而且不要使用BRAT标注系统中的高级内容(如定义关系的自反性、传递性等)。 一个典型的BRAT文本标注结果文件夹包含如下文件:annotation.conf,file.txt,file.ann。其中annotation.conf是BRAT标注配置文件,file.txt是待标注文本文件,可以有多个,每个文本文件都有一个同名的file.ann文件作为标注结果文件。 Annotation.conf:配置文件需要满足BRAT标注系统的要求,一个典型的配置文件如下: [entities]人物Date图书作品[relations]出生日期 Arg1:人物,Arg2:Date作者 Arg1:图书作品,Arg2:人物[events][attributes] File.ann:用户上传文本文件同名的标注结果文件,上面标注后结果文件一般如下: 历史人物 54151 54153 蔡京T3153 Text 54181 54183 北宋人物 54151 54153 蔡京T3155 Date 54154 54164 1047年2月14日朝代 Arg1:T3152 Arg2:T3153出生日期 Arg1:T3154 Arg2:T3155
  • 信息抽取函数 结构化抽取适用于xlsx、csv、json格式的基础数据,选择结构化抽取方式信息抽取时,可分为交互界面配置和代码编辑。 在通过结构化抽取方式进行信息抽取时,即用交互界面配置或用代码编辑进行信息抽取时,需要配置引用字段的抽取函数。 KG服务支持的信息抽取函数如表1所示。其中,“字段”表示基础数据中的字段名,在抽取函数中引用字段时,使用格式为“${字段}”,例如抽取基础数据中属性“name”的字段,在抽取函数中引用字段的格式为“trim(${name})”。 表1 信息抽取函数说明表 抽取函数 函数说明 抽取函数示例 抽取前数据示例 抽取后数据示例 trim(字段) 裁剪字段前后的空白字符 trim(${name}) "name":" mike " "mike" substring (字段, int pos, int len) 获取从该字段值第pos个字符(从0开始)开始的长度为len的子串 substring (${id}, 1, 6) "id":"a000111" "000111" split(字段,string pattern ) 将字段值以pattern为分隔符分割,得到一个列表。pattern可以是一个正则表达式,所有与pattern匹配的子串都作为分隔符。 split(${roles}, ', ') "roles":"role1,role2" ["role1", "role2"] concat(字段1,字段2, ...) 将字段1、字段2...依次拼接成一个长字符串。此处字段值也可以是一个字符串常量。 concat(${name}, '--', ${id}) "name": "mike", "id": "a000111" "mike--a000111" regexp_replace(字段, string pattern, string replacement) 将字段值中与正则表达式pattern匹配的部分替换为replacement regexp_replace(${info}, 'hello', 'world') "info":"helloworld" "worldworld" upper(字段) 将字段中英文字母全部转为大写 upper(${name}) "name":"mike" "MIKE" lower(字段) 将字段中英文字母全部转为小写 lower(${name}) "name":"JOHN" "john" initcap(字段) 将字段中英文首字母转为大写 initcap(${city}) "city":"hangzhou" "Hangzhou" coalesce(字段1,字段2, ...) 返回字段1,字段2, ...中第一个不为空的字段 coalesce(${name},${名字}, ${中文名} ...) "name":" ", "名字":" ", "中文名”:"小明” “小明” parse_array(字段) 尝试将字段值解析为一个列表 parse_array(${list}) "list":["item1","item2"] ['item1','item2'] array_get(字段, int index) 获取列表类型的字段中的第index个值(index从0开始) array_get(parse_array(${list}), 0) "list":["item1","item2"] "item1" regexp_extract_all(字段, string pattern, int index) 提取出字段值中与正则表达式pattern匹配的子串。第三个参数index为可选参数,表示获取正则表达式匹配到的第index个捕获组。注意,index=0表示返回整个匹配的子串,index=1表示返回第一个捕获组。 regexp_extract_all(${info}, '(he)ll(o)', 1) "info":"helloworld" "he" 父主题: 结构化抽取
  • 示例 以一个电影实体为例,抽取信息前后的实体信息如图2所示,代码示例如下所示: 图2 信息抽取 { "ie_type": "function", "function_ie_configs": { "default_config": true, "ie_configs": { "Person": [ { "key": "identifier", "value_function": "${url}" }, { "key": "中文名", "value_function": "regexp_replace(${中文名}, '\\(\\[link\\]@.*?:(/film.*?)\\)', '')" }, { "key": "国籍", "value_function": "regexp_replace(${国籍}, '\\(\\[link\\]@.*?:(/film.*?)\\)', '')" }, { "key": "职业", "value_function": "${职业}" }, { "key": "出生日期", "value_function": "${出生日期}" }, { "key": "url", "value_function": "${url}" } ], "Film": [ { "key": "identifier", "value_function": "${url}" }, { "key": "中文名", "value_function": "${中文名}" }, { "key": "票房", "value_function": "${票房}" }, { "key": "上映时间", "value_function": "${上映时间}" }, { "key": "导演", "value_function": "regexp_extract_all(${导演}, '\\(\\[link\\]@.*?:(/film.*?)\\)', 1)" }, { "key": "主演", "value_function": "regexp_extract_all(${主演}, '\\(\\[link\\]@.*?:(/film.*?)\\)', 1)" }, { "key": "url", "value_function": "${url}" } ] } }}
  • 操作步骤 在普通配置构建图谱页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。 在“信息抽取”对话框中,“抽取方式”选择“结构化抽取”,“编辑方式”选择“代码编辑”。 图1 信息抽取 选择“默认抽取”开关。 图标说明开关处于开启状态。开启后,在每个数据类别中,为每个数据字段建立同名抽取项,抽取函数为${数据字段名}。 图标说明开关处于关闭状态,需要编辑json格式代码。 在“信息抽取”对话框下方编辑json格式代码。 在“代码编辑”页签编辑json代码配置信息抽取时,可单击“交互界面”,切换至“交互界面”页签,查看信息抽取前后的相关字段。 单击“保存”,完成信息抽取。 若创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
  • 配置方式 信息抽取分为结构化抽取和非结构化抽取,其适用范围和抽取方式如表1所示。 表1 配置方式说明 配置方式 适用范围 具体方式 操作指引 结构化抽取 基础数据格式为xlsx、csv、json格式 交互界面配置:通过输入实体类型、抽取函数及抽取前后的数据字段,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 交互界面配置 代码编辑:将交互界面中的配置转换为json格式配置,通过编辑json配置信息,完成信息抽取配置。 所支持的信息抽取函数请见信息抽取函数。 代码编辑 非结构化抽取 基础数据格式为txt文本的自然语言短句 通过选择合适的算法,完成信息抽取配置。 可选择已有的预置模型模板,也可选择您自定义的模型。 非结构化抽取 在通过结构化抽取方式进行信息抽取时,交互界面配置与代码编辑配置可以相互切换。 信息抽取配置完成后,鼠标悬浮在信息抽取方框区域,显示清空图标,点击后可一键清空信息抽取配置。
  • 操作步骤 在图谱流水线配置页面,单击“信息抽取”,页面下方弹出“信息抽取”对话框,单击右侧按钮可以放大对话框。 图1 流水线配置页面 在“信息抽取”对话框中,“抽取方式”默认为“非结构化抽取”。 根据自身业务需要,您可以选择“公有库模型”、“预置模型”或者“用户自定义模型”,三者仅需选择一项。 “公有库模型”:当前提供“SimpleBertModel”和“RelationExtraction”两种公有库模型。 “预置模型”:当前提供“RESBM”和“RelationExtraction”两种预置模型。 “用户自定义模型”:您需提前在控制台自定义模型,详情请参见自定义信息抽取模型。 可在下方查看从文本信息中抽取的知识类型,知识类型包括主语“Subject_type”、谓语“Predicate”、宾语“Object_type”,即可查看到可抽取的主语、谓语、宾语组合。 图2 抽取模型 单击“保存”,完成信息抽取。 若创建多个数据源,请完成所有数据源的信息抽取配置。配置数据源请参见配置数据源。
  • 编辑概念 右键单击概念图标,选择“编辑”。 或双击概念图标。 左侧弹出概念编辑框。 在概念编辑框中,按表1编辑“概念名称”、“Icon”和“属性”。 图2 编辑概念 表1 编辑概念 参数 说明 概念名称 概念名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 Icon 单击选择概念图标的颜色和样式,单击右侧的“更多”,可选择更多图标样式。 属性 编辑当前概念的属性。所有概念都默认有一个属性为“name”,且默认属性类型为“single_string”。 添加属性 单击“添加属性”可添加属性文本框,在文本框中填写属性的“名称”,选择“单值/多值”、“类型”、“操作”。 “名称”:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-63位。 “单值/多值”:选择当前属性是单值还是多值。 “类型”:选择属性的类型,“单值”可选类型有“single_string”、“single_int”、“single_double”、“single_bool”,“多值”可选类型有“set_string”、“set_int”、“set_double”。 填写完概念的属性后,单击“操作”列的,保存信息。 编辑属性 单击已有属性“操作”列的,可对属性的“名称”重新编辑,也可重新选择“单值/多值”、“类型”。 修改完属性后,单击“操作”列的,保存信息。 复制属性 单击已有属性“操作”列的,复制当前属性。 删除属性 单击已有属性“操作”列的,删除当前属性。 填完信息后,单击“保存”。
  • 功能区操作 创建本体界面右上角的功能区,可基于当前本体进行一系列操作。 图10 功能区 表2 功能区操作 图标 说明 保存当前界面的概念节点和关系曲线。 清空界面,即清空当前界面的概念节点和关系曲线。 导出当前界面的概念节点和关系曲线至OBS。导出前需要提前创建好OBS桶,详情请见OBS添加桶。 单击图标,在导出本体的对话框中填写“导出文件名”,选择“OBS桶”和“存储路径”,然后单击“确定”。 导出文件名 填写导出本体的文件名。 OBS桶 选择存放本体文件的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择存放本体文件的OBS路径。 从OBS导入本体。导入前将待导入的本体文件(json格式)上传至OBS中,详情请参见OBS添加桶和OBS上传文件或文件夹。 说明: 此处导入的本体会覆盖当前正在编辑的本体。 单击图标,在导入本体的对话框中选择“OBS桶”和“存储路径”,然后单击“确定”。 OBS桶 选择提前准备的本体文件存放的OBS桶。需保证您的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 存储路径 选择提前准备的本体文件存放在OBS桶中的路径。 单击图标可查看创建本体所有操作的快捷键。 单击图标放大本体。 单击图标缩小本体。 单击图标使本体以适配大小显示。 单击图标撤销上一个操作。 单击图标恢复上一个已撤销的操作。
  • 进入全量更新页面 登录KG服务管理控制台,默认进入“我的图谱”页面。 在“我的图谱”页面,单击图谱卡片。 进入图谱详情页面。 单击右上角的“全量更新”,根据自身业务选择更新方式,可选“普通配置构建”“智能一键构建”和“图谱导入”。 普通配置构建:通过配置数据源、配置图谱本体、配置信息抽取、配置知识映射、知识融合、图谱质检等流水线步骤,构建新的知识图谱。 智能一键构建:只需提供新的源数据,无需创建本体等其他配置,快速构建新的知识图谱。 图谱导入:对于导出的图谱版本,通过图谱导入可以快速恢复图谱版本。
共100000条