AI开发平台ModelArts-TF-IDF:概述

时间:2023-11-01 16:20:21

概述

“词频-逆文档频率”节点主要功能是计算某个词对于所属文档的重要程度。词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法规定某个词语的重要性与它在一个文档中出现的次数成正比,与该词语在语料库的所有文档中出现的频率成反比。给定语料库D,则文档中的词语定义如下:

式中,指词语在文档出现频率的归一化结果,表示该词在文档dj中的出现次数,表示文件中所有词语的出现次数之和;表示词语的逆向文件频率(Inverse Document Frequency),|D|表示语料库的文件总数,表示包含词语的文件数目。

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0130.html