AI开发平台ModelArts-关键词抽取:原理

时间:2023-11-01 16:20:20

原理

该算法基于TextRank,依据的PageRank算法思想,将滑动窗口内的共现词汇对儿当做相连接的节点构建网络,计算节点的价值(即单词的重要性)并排序,数值高的单词即为该文本的关键词。

TextRank公式如下,其中V_i、V_j为网络中的节点(即单词),In(V_i)表示节点V_i的所有入点,Out(V_j)表示节点V_j的全部出点,Out(V_j)表示节点V_j的所有出点(跳转指向的点,即下一个单词),N_ji表示(V_j, V_i)的个数,S(V_i)、S(V_j)表示节点V_i、V_j的价值,d为阻尼系数,默认为0.85。

本算法基于pagerank思想,将共现词对儿AB的两条边(A,B)(B,A)添加进网络,相同元素的共现对儿不重复添加,(A,A)自指向共现对儿不添加。

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0277.html