云服务器内容精选

  • 步骤1:准备数据 在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。 由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下: 数据格式 数据格式为短文本txt格式,文件内容示例如下: 张三的生日是1990年1月1日,身高175cm,出生于北京。 李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。 ... ... 数据划分 训练数据:80%数据用于训练信息抽取模型。 验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。 训练数据量 训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。 训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。 三元组类型 本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。 表1 三元组类型 subject_type predicate object_type 人物 毕业院校 学校 影视作品 改编自 作品 影视作品 制片人 人物 人物 身高 Number 人物 丈夫 人物 影视作品 主演 人物 人物 出生日期 Date 影视作品 编剧 人物 影视作品 导演 人物 人物 祖籍 地点 人物 父亲 人物 人物 出生地 地点 影视作品 出品公司 企业 人物 妻子 人物 人物 母亲 人物 人物 国籍 国家 影视作品 上映时间 Date 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。 登录OBS服务,创建桶和文件夹,用于存放数据集。 创建名称为“kg-model”的OBS桶。 创建名称为“model-data”的文件夹用于存放未标注的数据集。 创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。 创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。