Python 加载scikit中的\u文件了解不加载目录中的所有文件
我有一个名为“email”的文件夹,其中有两个子文件夹,它们的名称与它们所拥有的文件的分类对应(垃圾邮件或非垃圾邮件,都是.txt文件)。这两个子文件夹中有3000个文件。使用load_文件:Python 加载scikit中的\u文件了解不加载目录中的所有文件,python,machine-learning,dataset,scikit-learn,classification,Python,Machine Learning,Dataset,Scikit Learn,Classification,我有一个名为“email”的文件夹,其中有两个子文件夹,它们的名称与它们所拥有的文件的分类对应(垃圾邮件或非垃圾邮件,都是.txt文件)。这两个子文件夹中有3000个文件。使用load_文件: data = load_files('emails', shuffle='False') print len(data) print len(data.target) 这将打印“5”,然后打印“3000”。如果找到3000个分类标签,数据的长度怎么可能只有5?您的数据存储在data.data中,目标存储
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)
这将打印“5”,然后打印“3000”。如果找到3000个分类标签,数据的长度怎么可能只有5?您的数据存储在
data.data
中,目标存储在data.target
中。
请尝试打印(len(data.data))
load_files()
只返回一个sklearn.datasets.base.Bunch
,它是一个简单的数据包装器。
因此,数据
采用以下格式:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}
这就是为什么len(数据)
返回5
希望这有帮助