AI开发平台ModelArts-关键词抽取:输入参数说明

时间:2023-11-01 16:20:20

输入参数说明

参数名称

参数描述

参数要求

doc_id_col

文章id列

string类型;必填

doc_content

分词后的文本列

string类型;必填;多列时每列当做单独的句子处理

doc_content_sep

分词列中的词分隔符

string类型;必填;默认为" "

window_size

滑动窗口大小

integer类型;非必填;默认为整行,取值范围[1, 2147483647]

dumping_factor

TextRank算法的阻尼系数

double类型;非必填;默认0.85,取值范围(0, 1)

max_iter

TextRank算法的最大迭代次数

integer类型;非必填;默认100,取值范围[1, 5000]

epsilon

TextRank算法的收敛残差阈值

double类型;非必填;默认0.000001,取值范围(0.000001, 1)

该算子直接承接分词的结果,无过滤停用词、过滤低频词等操作。

会过滤掉doc_id_col/doc_content为空的行。

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0277.html