AI开发平台ModelArts-原子分词:输入参数说明

时间:2023-11-01 16:20:20

输入参数说明

参数名称

参数描述

参数要求

input_cols

用于分词的列名

string类型;必填;可支持多列

input_cols_sep

多列分词列名分隔符

string类型;必填;默认为","

output_sep

输出表分词列分词分隔符

string类型;必填;默认为" "

remain_other_cols

输出是否保留分词列外的其他列

boolean类型;必填;默认为False

dict_col

词典表的word列

string类型;非必填;一列的一行代表一个词

enable_ent

是否识别简单实体

boolean类型;非必填;默认为True

enable_person

是否识别人名

boolean类型;非必填;默认为True

enable_org

是否识别机构名

boolean类型;非必填;默认为True

enable_pos

是否进行词性标注

boolean类型;非必填;默认为False

pos_sep

词性标注与单词分隔符

string类型;非必填;默认为"/";不得与output_sep重复

enable_tel

是否识别电话号码

boolean类型;非必填;默认为True

enable_time

是否识别时间

boolean类型;非必填;默认为True

enable_date

是否识别日期

boolean类型;非必填;默认为True

enable_chn_time

是否识别中文时间

boolean类型;非必填;默认为True

enable_chn_date

是否识别中文日期

boolean类型;非必填;默认为True

filter_all_punctuation

是否过滤分词结果全为标点符号的词

boolean类型;非必填;默认为False

filter_all_en

是否过滤分词结果为全英文的词

boolean类型;非必填;默认为False

filter_all_num

是否过滤分词结果为全数字的词

boolean类型;非必填;默认为False

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0278.html