Classification 如何子样本数据集_Classification_Weka_Svm_Subsampling

Classification 如何子样本数据集

Classification 如何子样本数据集,classification,weka,svm,subsampling,Classification,Weka,Svm,Subsampling,我将实现svm（支持向量机）和其他各种分类算法。但我的火车数据集是10Gb。我怎样才能再抽样呢？这是一个非常基本的问题，但我是初学者感谢您的帮助这取决于您的数据由于您正在处理一个基本级别的问题，我想最好的方法是从大幅减少样本量开始。完成后，将特征的数量减少到指定的大小一旦数据集足够小和简单，您就可以考虑添加更多属性或样本，以适合当前问题。希望这有帮助您应该做的第一件事是减少样本（行）的数量。LibSVM为此提供了一个非常有用的方法。如果您的数据集有N个样本，并且您希望将其降采样为N

我将实现svm（支持向量机）和其他各种分类算法。但我的火车数据集是10Gb。我怎样才能再抽样呢？这是一个非常基本的问题，但我是初学者

感谢您的帮助

这取决于您的数据

由于您正在处理一个基本级别的问题，我想最好的方法是从大幅减少样本量开始。完成后，将特征的数量减少到指定的大小

一旦数据集足够小和简单，您就可以考虑添加更多属性或样本，以适合当前问题。

希望这有帮助

您应该做的第一件事是减少样本（行）的数量。LibSVM为此提供了一个非常有用的方法。如果您的数据集有N个样本，并且您希望将其降采样为N-K个样本，则可以使用上述脚本：（1）从数据中随机删除K个样本；（2）使用从数据中删除K个样本。最后一个是推荐的

减少特征（列）的数量要复杂得多。你不能（你不应该）随意删除它们。有很多算法，通常称为数据简化算法。最常用的是。但它的使用并不简单