Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/362.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scikit学习:TF-IDF中的空词汇表_Python_Scipy_Scikit Learn_Tf Idf - Fatal编程技术网

Python Scikit学习:TF-IDF中的空词汇表

Python Scikit学习:TF-IDF中的空词汇表,python,scipy,scikit-learn,tf-idf,Python,Scipy,Scikit Learn,Tf Idf,我正在使用这个问题的投票最多的答案()中给出的代码来计算文档之间的TF-IDF。但是,我观察到,当我运行代码时,没有指定自定义值min_df(1,在代码中),如果两个文档完全不同(因此它们中没有公共单词),而不是接收到TF-IDF值0,我会得到以下错误: ValueError:空词汇表;训练集可能只包含停止词,或者最小值df(分别为最大值df)可能过高(分别为过低)。 有人能告诉我如何消除这个错误吗?默认情况下(在sklearn默认情况下)(在sklearn中,我认为不是“TF-IDF值为0”,

我正在使用这个问题的投票最多的答案()中给出的代码来计算文档之间的TF-IDF。但是,我观察到,当我运行代码时,没有指定自定义值
min_df
(1,在代码中),如果两个文档完全不同(因此它们中没有公共单词),而不是接收到TF-IDF值0,我会得到以下错误:

ValueError:空词汇表;训练集可能只包含停止词,或者最小值df(分别为最大值df)可能过高(分别为过低)。

有人能告诉我如何消除这个错误吗?

默认情况下(在sklearn默认情况下)(在sklearn中,我认为不是“TF-IDF值为0”,而是“余弦相似性为0”。TF-IDF值是大小
n\u特征==len的向量(vectorizer.词汇表)
,一个向量对应于对中的每个文档。我认为不是“TF-IDF值为0”,而是指“余弦相似性为0”。TF-IDF值是大小
n\u features==len(vectorizer.词汇表)
,而是一个向量对应于对中的每个文档。