有没有一种方法可以使用scikit或任何其他python包仅获取单词的IDF值?
我的数据集中有一个文本列,使用该列,我希望为所有存在的单词计算IDF。scikit中的TFID实现,如有没有一种方法可以使用scikit或任何其他python包仅获取单词的IDF值?,python,scikit-learn,nlp,tf-idf,tfidfvectorizer,Python,Scikit Learn,Nlp,Tf Idf,Tfidfvectorizer,我的数据集中有一个文本列,使用该列,我希望为所有存在的单词计算IDF。scikit中的TFID实现,如tfidfvectorize,直接为我提供了tfidf值,而不仅仅是单词idf。有没有办法让word idf提供一组文档?您只需将TfidfVectorizer与use\u idf=True(默认值)一起使用,然后用idf\u进行提取即可 from sklearn.feature_extraction.text import TfidfVectorizer my_data = ["h
tfidf
vectorize,直接为我提供了tfidf值,而不仅仅是单词idf。有没有办法让word idf提供一组文档?您只需将TfidfVectorizer与use\u idf=True(默认值)一起使用,然后用idf\u进行提取即可
from sklearn.feature_extraction.text import TfidfVectorizer
my_data = ["hello how are you", "hello who are you", "i am not you"]
tf = TfidfVectorizer(use_idf=True)
tf.fit_transform(my_data)
idf = tf.idf_
[奖金]如果您想获得特定单词的idf值:
# If you want to get the idf value for a particular word, here "hello"
tf.idf_[tf.vocabulary_["hello"]]
为什么不自己计算呢。这是一个简单的计算TfidVectorizer有一个
idf\uu
,你可以在安装后使用。@Usernamenotfound我一直沉迷于编写自己的代码来做我知道逻辑的事情。这导致我的效率低于其他了解图书馆直接功能的人。因此,除非必要,我故意不写代码。您如何获得IDF值,例如术语“not”的IDF值。IDF(“not”)=什么?属性“词汇表”提供了单词和特征标记之间的映射。您应该使用词汇表获取特征标记,然后使用此值在idf中获取相应的值。