AI开发平台ModelArts-字符串相似度topN:参数说明

时间:2023-11-01 16:20:20

参数说明

参数名

参数类型

是否必选

参数含义

默认值

inputSelectedColName1

String

输入表被选字段名称。

当该字段为空时,dataDF中第一个string类型的字段。

mapSelectedColName2

String

map表被选字段名称。

当该字段为空时,paramDF中第一个string类型的字段。

inputAppendColNamesStr

String

输入表添加的其他字段名称,涉及多个字段以逗号分隔。

inputAppendRenameColNamesStr

String

输入表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

mapAppendColNamesStr

String

map表添加的其他字段名称,涉及多个字段以逗号分隔。

mapAppendRenameColNamesStr

String

map表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

outputColName

String

输出的字段名称。

dist

method

String

字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim

cosine

lambda

Double

SSK需要的参数。

0.5

k

Int

SSK需要的参数。

10

kVec

Int

SimHashHamming字符向量的大小。

64

b

Int

minhash分桶大小。

100

seed

Int

minhash随机hash函数的种子。

0

topN

Int

最相似的TopN字符串。

10

subLen

Int

粗排时,最小子串大小。

1

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0274.html