Python 加载scikit中的\u文件了解不加载目录中的所有文件

Python 加载scikit中的\u文件了解不加载目录中的所有文件,python,machine-learning,dataset,scikit-learn,classification,Python,Machine Learning,Dataset,Scikit Learn,Classification,我有一个名为“email”的文件夹,其中有两个子文件夹,它们的名称与它们所拥有的文件的分类对应(垃圾邮件或非垃圾邮件,都是.txt文件)。这两个子文件夹中有3000个文件。使用load_文件: data = load_files('emails', shuffle='False') print len(data) print len(data.target) 这将打印“5”,然后打印“3000”。如果找到3000个分类标签,数据的长度怎么可能只有5?您的数据存储在data.data中,目标存储

我有一个名为“email”的文件夹,其中有两个子文件夹,它们的名称与它们所拥有的文件的分类对应(垃圾邮件或非垃圾邮件,都是.txt文件)。这两个子文件夹中有3000个文件。使用load_文件:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这将打印“5”,然后打印“3000”。如果找到3000个分类标签,数据的长度怎么可能只有5?

您的数据存储在
data.data
中,目标存储在
data.target
中。 请尝试打印(len(data.data))

load_files()
只返回一个
sklearn.datasets.base.Bunch
,它是一个简单的数据包装器。 因此,
数据
采用以下格式:

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}
这就是为什么
len(数据)
返回5

希望这有帮助