Python Scikit学习:TF-IDF中的空词汇表
我正在使用这个问题的投票最多的答案()中给出的代码来计算文档之间的TF-IDF。但是,我观察到,当我运行代码时,没有指定自定义值Python Scikit学习:TF-IDF中的空词汇表,python,scipy,scikit-learn,tf-idf,Python,Scipy,Scikit Learn,Tf Idf,我正在使用这个问题的投票最多的答案()中给出的代码来计算文档之间的TF-IDF。但是,我观察到,当我运行代码时,没有指定自定义值min_df(1,在代码中),如果两个文档完全不同(因此它们中没有公共单词),而不是接收到TF-IDF值0,我会得到以下错误: ValueError:空词汇表;训练集可能只包含停止词,或者最小值df(分别为最大值df)可能过高(分别为过低)。 有人能告诉我如何消除这个错误吗?默认情况下(在sklearn默认情况下)(在sklearn中,我认为不是“TF-IDF值为0”,
min_df
(1,在代码中),如果两个文档完全不同(因此它们中没有公共单词),而不是接收到TF-IDF值0,我会得到以下错误:
ValueError:空词汇表;训练集可能只包含停止词,或者最小值df(分别为最大值df)可能过高(分别为过低)。
有人能告诉我如何消除这个错误吗?默认情况下(在sklearn默认情况下)(在sklearn中,我认为不是“TF-IDF值为0”,而是“余弦相似性为0”。TF-IDF值是大小n\u特征==len的向量(vectorizer.词汇表)
,一个向量对应于对中的每个文档。我认为不是“TF-IDF值为0”,而是指“余弦相似性为0”。TF-IDF值是大小n\u features==len(vectorizer.词汇表)
,而是一个向量对应于对中的每个文档。