Python 使用CountVectorizer从文件列表创建稀疏矩阵失败
我希望能得到一些帮助。我正在尝试编写一个Python程序,用CountVectorier对每个文件中的单词进行计数,然后创建一个稀疏矩阵。我正在创建一个列表,其中包含应该分析的每个文件的目录。这些文件每行有一个字,这就是token_模式为“+”的原因,因此它在每一个换行处分割数据。这很好,但是当我尝试用fit_transform()转换它时,我得到了一个退出代码1,我只是不知道该怎么做了Python 使用CountVectorizer从文件列表创建稀疏矩阵失败,python,list,sparse-matrix,countvectorizer,Python,List,Sparse Matrix,Countvectorizer,我希望能得到一些帮助。我正在尝试编写一个Python程序,用CountVectorier对每个文件中的单词进行计数,然后创建一个稀疏矩阵。我正在创建一个列表,其中包含应该分析的每个文件的目录。这些文件每行有一个字,这就是token_模式为“+”的原因,因此它在每一个换行处分割数据。这很好,但是当我尝试用fit_transform()转换它时,我得到了一个退出代码1,我只是不知道该怎么做了 import os from sklearn.feature_extraction.text import
import os
from sklearn.feature_extraction.text import CountVectorizer
a = "C:/Datensatz/feature_vectors"
dirs = os.listdir(a)
filename_paths = []
for file in dirs:
filename_paths.append(a + "/" + file)
print(filename_paths)
vec = CountVectorizer(input="filename", token_pattern="+", lowercase=False)
print("vec fertig")
sparse_matrix = vec.fit_transform(filename_paths)
print("sparse fertig")
令牌_模式必须为“+”