Python 加载scikit中的\u文件了解不加载目录中的所有文件_Python_Machine Learning_Dataset_Scikit Learn_Classification

Python 加载scikit中的\u文件了解不加载目录中的所有文件

python machine-learning scikit-learn

Python 加载scikit中的\u文件了解不加载目录中的所有文件,python,machine-learning,dataset,scikit-learn,classification,Python,Machine Learning,Dataset,Scikit Learn,Classification,我有一个名为“email”的文件夹，其中有两个子文件夹，它们的名称与它们所拥有的文件的分类对应（垃圾邮件或非垃圾邮件，都是.txt文件）。这两个子文件夹中有3000个文件。使用load_文件： data = load_files('emails', shuffle='False') print len(data) print len(data.target) 这将打印“5”，然后打印“3000”。如果找到3000个分类标签，数据的长度怎么可能只有5？您的数据存储在data.data中，目标存储

我有一个名为“email”的文件夹，其中有两个子文件夹，它们的名称与它们所拥有的文件的分类对应（垃圾邮件或非垃圾邮件，都是.txt文件）。这两个子文件夹中有3000个文件。使用load_文件：

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这将打印“5”，然后打印“3000”。如果找到3000个分类标签，数据的长度怎么可能只有5？

您的数据存储在

data.data

中，目标存储在

data.target

中。请尝试打印（len（data.data））

load_files（）

只返回一个

sklearn.datasets.base.Bunch

，它是一个简单的数据包装器。因此，

数据

采用以下格式：

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是为什么

len（数据）

返回5

希望这有帮助