Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
有没有一种方法可以使用scikit或任何其他python包仅获取单词的IDF值?_Python_Scikit Learn_Nlp_Tf Idf_Tfidfvectorizer - Fatal编程技术网

有没有一种方法可以使用scikit或任何其他python包仅获取单词的IDF值?

有没有一种方法可以使用scikit或任何其他python包仅获取单词的IDF值?,python,scikit-learn,nlp,tf-idf,tfidfvectorizer,Python,Scikit Learn,Nlp,Tf Idf,Tfidfvectorizer,我的数据集中有一个文本列,使用该列,我希望为所有存在的单词计算IDF。scikit中的TFID实现,如tfidfvectorize,直接为我提供了tfidf值,而不仅仅是单词idf。有没有办法让word idf提供一组文档?您只需将TfidfVectorizer与use\u idf=True(默认值)一起使用,然后用idf\u进行提取即可 from sklearn.feature_extraction.text import TfidfVectorizer my_data = ["h

我的数据集中有一个文本列,使用该列,我希望为所有存在的单词计算IDF。scikit中的TFID实现,如
tfidf
vectorize,直接为我提供了tfidf值,而不仅仅是单词idf。有没有办法让word idf提供一组文档?

您只需将TfidfVectorizer与use\u idf=True(默认值)一起使用,然后用idf\u进行提取即可

from sklearn.feature_extraction.text import TfidfVectorizer

my_data = ["hello how are you", "hello who are you", "i am not you"]

tf = TfidfVectorizer(use_idf=True)
tf.fit_transform(my_data)

idf = tf.idf_ 
[奖金]如果您想获得特定单词的idf值:

# If you want to get the idf value for a particular word, here "hello"    
tf.idf_[tf.vocabulary_["hello"]]

为什么不自己计算呢。这是一个简单的计算TfidVectorizer有一个
idf\uu
,你可以在安装后使用。@Usernamenotfound我一直沉迷于编写自己的代码来做我知道逻辑的事情。这导致我的效率低于其他了解图书馆直接功能的人。因此,除非必要,我故意不写代码。您如何获得IDF值,例如术语“not”的IDF值。IDF(“not”)=什么?属性“词汇表”提供了单词和特征标记之间的映射。您应该使用词汇表获取特征标记,然后使用此值在idf中获取相应的值。