Scikit learn 如何在scikit学习中加载包含txt文件的数据集

Scikit learn 如何在scikit学习中加载包含txt文件的数据集,scikit-learn,dataset,svm,Scikit Learn,Dataset,Svm,我将使用scikit学习库实现SVM分类 我的功能值为0/1,我已将这些值保存在功能的txt文件和标签的单独txt文件中 现在我的问题是,如何使用scikit learn加载培训和测试阶段的外部数据集?在TXT/CSV文件中保存矢量化数据,尤其是压缩(稀疏)数据不是最好的方法,因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/“稀疏性”等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况 您可以看到将稀疏矩阵转换为法线(numpy)的示例,其中一个以MemoryError结尾。如果您

我将使用scikit学习库实现SVM分类

我的功能值为0/1,我已将这些值保存在功能的txt文件和标签的单独txt文件中


现在我的问题是,如何使用scikit learn加载培训和测试阶段的外部数据集?

在TXT/CSV文件中保存矢量化数据,尤其是压缩(稀疏)数据不是最好的方法,因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/“稀疏性”等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况

您可以看到将稀疏矩阵转换为法线(numpy)的示例,其中一个以
MemoryError
结尾。如果您将稀疏(压缩)矩阵保存为CSV,然后尝试将其读回(未压缩),则可能会发生这种情况

因此,我建议您使用:

保存/序列化数据:

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 
其中
clf
是经过训练的模型还是另一种稀疏/压缩的数据结构

从磁盘读回:

from sklearn.externals import joblib
clf = joblib.load('filename.pkl') 

在TXT/CSV文件中保存矢量化数据,尤其是压缩(稀疏)数据不是最好的方法,因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/稀疏性等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况

您可以看到将稀疏矩阵转换为法线(numpy)的示例,其中一个以
MemoryError
结尾。如果您将稀疏(压缩)矩阵保存为CSV,然后尝试将其读回(未压缩),则可能会发生这种情况

因此,我建议您使用:

保存/序列化数据:

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 
其中
clf
是经过训练的模型还是另一种稀疏/压缩的数据结构

从磁盘读回:

from sklearn.externals import joblib
clf = joblib.load('filename.pkl') 

查看numpy或pandas的文档。两者都有读取csv文件的功能。如果你的文件不是真正的csv格式,你必须自己解析它们。你不会得到更多的帮助,因为所有的细节都丢失了。请查看numpy或pandas的文档。两者都有读取csv文件的功能。如果你的文件不是真正的csv格式,你必须自己解析它们。由于缺少所有详细信息,您不会得到更多帮助。谢谢您的回答和说明。我要试试你的指示。@Shahrooz,有用吗?是的,谢谢你的帮助。我只是不知道如何在分类器中设置gama和c参数。我是否必须为每次运行手动设置这些参数,或者它们将自动设置?如果它们将自动设置,我如何才能找到它们的值?感谢您的回答和说明。我要试试你的指示。@Shahrooz,有用吗?是的,谢谢你的帮助。我只是不知道如何在分类器中设置gama和c参数。我是否必须为每次运行手动设置这些参数,或者它们将自动设置?如果它们将自动设置,我如何找到它们的值?