Scikit learn 如何在scikit学习中加载包含txt文件的数据集_Scikit Learn_Dataset_Svm

Scikit learn 如何在scikit学习中加载包含txt文件的数据集

scikit-learn

Scikit learn 如何在scikit学习中加载包含txt文件的数据集,scikit-learn,dataset,svm,Scikit Learn,Dataset,Svm,我将使用scikit学习库实现SVM分类我的功能值为0/1，我已将这些值保存在功能的txt文件和标签的单独txt文件中现在我的问题是，如何使用scikit learn加载培训和测试阶段的外部数据集？在TXT/CSV文件中保存矢量化数据，尤其是压缩（稀疏）数据不是最好的方法，因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/“稀疏性”等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况您可以看到将稀疏矩阵转换为法线（numpy）的示例，其中一个以MemoryError结尾。如果您

我将使用scikit学习库实现SVM分类

我的功能值为0/1，我已将这些值保存在功能的txt文件和标签的单独txt文件中

现在我的问题是，如何使用scikit learn加载培训和测试阶段的外部数据集？

在TXT/CSV文件中保存矢量化数据，尤其是压缩（稀疏）数据不是最好的方法，因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/“稀疏性”等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况

您可以看到将稀疏矩阵转换为法线（numpy）的示例，其中一个以

MemoryError

结尾。如果您将稀疏（压缩）矩阵保存为CSV，然后尝试将其读回（未压缩），则可能会发生这种情况

因此，我建议您使用：

保存/序列化数据：

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')

其中

clf

是经过训练的模型还是另一种稀疏/压缩的数据结构

从磁盘读回：

from sklearn.externals import joblib
clf = joblib.load('filename.pkl')

在TXT/CSV文件中保存矢量化数据，尤其是压缩（稀疏）数据不是最好的方法，因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/稀疏性等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况