云服务器内容精选

华为云首页用户手册

自定义信息抽取模型

知识图谱 KG-准备训练数据:定义三元组类型（schema）

定义三元组类型（schema）为了训练自定义的信息抽取模型，需要定义该抽取模型能够抽取的三元组类型，并在训练数据中进行标注。三元组是知识图谱构建的基本元组，三元组借鉴了语言学中主谓宾结构，语言学中一句话由主语（subject）、谓语（predicate）、宾语（object）组成，自然语言中的知识也可以建模为三个元素构成的组合格式，如“中国的首都是北京”这句话中，就有“中国-首都-北京”这样的三元组。为了将三元组分类，我们定义三元组的类型由主语类型（subject type）、谓语（predicate）类型、宾语类型（object type），如上述三元组“中国-首都-北京”的类型是“国家-首都-城市”。通常我们将这些三元组类型组成的集合称为模型的schema。

知识图谱 KG 自定义信息抽取模型
知识图谱 KG-创建模型:训练模型框架介绍

训练模型框架介绍 KG服务提供不同类型的关系抽取模型，以应对用户不同的条件与需求。 KG服务当前提供以下训练模型框架供您自定义模型： DGCNN是一个较为复杂的端到端关系抽取模型，它在使用BERT模型建模语言关系的基础上，利用DGCNN网络额外使用了文本的分词词性信息，这使得它对于待抽取实体的边界识别能力很强。但复杂的模型意味着更多的标注数据需求，推荐平均每类关系三元组标注数据在400以上，所有标注文本样本数量在8000以上。 MRC-BM-v2是一个非常简单的、基于BERT模型、端到端的关系抽取模型，它对于标注数据量的要求非常低，平均每个关系仅需要200组左右标注数据即可训练出一个较好（实测F1值在0.7左右）的模型，平均每个关系标注数据在2000左右模型训练效果达到一个峰值（实测F1值在0.8左右），数据量越多，质量越好，效果会越好。 MRC-BM是旧版本的模型，为兼容保留，新创建模型请使用MRC-BM-v2。

知识图谱 KG 自定义信息抽取模型
知识图谱 KG-创建模型:训练数据类型介绍

训练数据类型介绍在创建抽取模型时，需要您提前准备训练数据上传至OBS目录。KG服务当前支持的数据类型包括“Dataset”、“Brat”、“ModelArts”。 Dataset DATASET数据需要用户指定的文件夹中包含两个指定格式与名称的文件：schema.json和train_data.json。前者用来指定需要抽取的关系三元组类型，后者用来存放所有的标注数据。 schema.json一行一句json字符串，表示一种关系三元组类型：“predicate”表示谓词，“subject”表示主语类型，“object”表示宾语类型。例如： {"predicate": "出生地", "subject": "人物", "object": "地点"} train_data.json一行一句json字符串，表示一条标注数据。其中“text”是文本，“spo_list”是spo三元组的list，每个spo三元组包含7个元素，“predicate”为三元组谓词，“object_type”为宾语类型，“subject_type”为主语类型，“object_position”为宾语在文中出现的位置，“subject_position”为主语在文中出现的位置，“object”为宾语词，“subject”为主语词。例如： {"text":"比如钱钟书和杨绛、鲁迅和许广平都只有一个子女","spo_list":[{"predicate":"妻子","object_type":"人物","subject_type":"人物","object":"杨绛","subject":"钱钟书","subject_position":2,"object_position":6},{"predicate":"丈夫","object_type":"人物","subject_type":"人物","object":"钱钟书","subject":"杨绛","subject_position":6,"object_position":2}]} Brat BRAT是一个开源的文本标注工具，主要用于对文本的结构化标注，您可以前往官网下载。KG服务的预置模型框架支持直接利用BRAT关系三元组标注的结果来训练模型。注意您的标注任务仅限于BRAT的关系三元组标注，而且不要使用BRAT标注系统中的高级内容（如定义关系的自反性、传递性等）。一个典型的BRAT文本标注结果文件夹包含如下文件：annotation.conf，file.txt，file.ann。其中annotation.conf是BRAT标注配置文件，file.txt是待标注文本文件，可以有多个，每个文本文件都有一个同名的file.ann文件作为标注结果文件。 Annotation.conf：配置文件需要满足BRAT标注系统的要求，一个典型的配置文件如下： [entities]人物Date图书作品[relations]出生日期 Arg1：人物，Arg2：Date作者 Arg1：图书作品，Arg2：人物[events][attributes] File.ann：用户上传文本文件同名的标注结果文件，上面标注后结果文件一般如下：历史人物 54151 54153 蔡京T3153 Text 54181 54183 北宋人物 54151 54153 蔡京T3155 Date 54154 54164 1047年2月14日朝代 Arg1:T3152 Arg2:T3153出生日期 Arg1:T3154 Arg2:T3155

知识图谱 KG 自定义信息抽取模型