AI开发平台ModelArts-原子分词:输入参数说明
输入参数说明
参数名称 |
参数描述 |
参数要求 |
---|---|---|
input_cols |
用于分词的列名 |
string类型;必填;可支持多列 |
input_cols_sep |
多列分词列名分隔符 |
string类型;必填;默认为"," |
output_sep |
输出表分词列分词分隔符 |
string类型;必填;默认为" " |
remain_other_cols |
输出是否保留分词列外的其他列 |
boolean类型;必填;默认为False |
dict_col |
词典表的word列 |
string类型;非必填;一列的一行代表一个词 |
enable_ent |
是否识别简单实体 |
boolean类型;非必填;默认为True |
enable_person |
是否识别人名 |
boolean类型;非必填;默认为True |
enable_org |
是否识别机构名 |
boolean类型;非必填;默认为True |
enable_pos |
是否进行词性标注 |
boolean类型;非必填;默认为False |
pos_sep |
词性标注与单词分隔符 |
string类型;非必填;默认为"/";不得与output_sep重复 |
enable_tel |
是否识别电话号码 |
boolean类型;非必填;默认为True |
enable_time |
是否识别时间 |
boolean类型;非必填;默认为True |
enable_date |
是否识别日期 |
boolean类型;非必填;默认为True |
enable_chn_time |
是否识别中文时间 |
boolean类型;非必填;默认为True |
enable_chn_date |
是否识别中文日期 |
boolean类型;非必填;默认为True |
filter_all_punctuation |
是否过滤分词结果全为标点符号的词 |
boolean类型;非必填;默认为False |
filter_all_en |
是否过滤分词结果为全英文的词 |
boolean类型;非必填;默认为False |
filter_all_num |
是否过滤分词结果为全数字的词 |
boolean类型;非必填;默认为False |