pythonscikit学习';s TFIDF矢量器-最大值为1.0?
我无法在线找到此问题的答案,但tfidfVectorizer.fit_变换的结果是否为最大值为1.0的数组 因为pythonscikit学习';s TFIDF矢量器-最大值为1.0?,python,nltk,tf-idf,Python,Nltk,Tf Idf,我无法在线找到此问题的答案,但tfidfVectorizer.fit_变换的结果是否为最大值为1.0的数组 因为 idf(术语i)= 日志(#文档数/包含术语#i的文档数),idf以及随后的tfidf在许多情况下不应该大于1.0吗 i、 e.含有“苦艾酒”一词的文件。假设我们的术语freq(tf)是1,但idf是(1000个总文档/1个包含‘苦艾酒’的文档)=1000,1*1000=1000,不是吗 但在我使用scikit learn的TFIDFvectorier时,我得到的最大值似乎是1。是否
idf(术语i)=
日志(#文档数/包含术语#i的文档数)
,idf以及随后的tfidf在许多情况下不应该大于1.0吗
i、 e.含有“苦艾酒”一词的文件。假设我们的术语freq(tf)是1,但idf是(1000个总文档/1个包含‘苦艾酒’的文档)=1000,1*1000=1000,不是吗
但在我使用scikit learn的TFIDFvectorier时,我得到的最大值似乎是1。是否规范化?默认情况下,tfidf行是L2规范化的。是源代码中的关键行
if self.norm:
X = normalize(X, norm=self.norm, copy=False)
normalize()。是指向normalize()
文档的链接