Classification 如何子样本数据集

Classification 如何子样本数据集,classification,weka,svm,subsampling,Classification,Weka,Svm,Subsampling,我将实现svm(支持向量机)和其他各种分类算法。 但我的火车数据集是10Gb。我怎样才能再抽样呢? 这是一个非常基本的问题,但我是初学者 感谢您的帮助这取决于您的数据 由于您正在处理一个基本级别的问题,我想最好的方法是从大幅减少样本量开始。完成后,将特征的数量减少到指定的大小 一旦数据集足够小和简单,您就可以考虑添加更多属性或样本,以适合当前问题。 希望这有帮助 您应该做的第一件事是减少样本(行)的数量。LibSVM为此提供了一个非常有用的方法。如果您的数据集有N个样本,并且您希望将其降采样为N

我将实现svm(支持向量机)和其他各种分类算法。 但我的火车数据集是10Gb。我怎样才能再抽样呢? 这是一个非常基本的问题,但我是初学者


感谢您的帮助

这取决于您的数据

由于您正在处理一个基本级别的问题,我想最好的方法是从大幅减少样本量开始。完成后,将特征的数量减少到指定的大小

一旦数据集足够小和简单,您就可以考虑添加更多属性或样本,以适合当前问题。


希望这有帮助

您应该做的第一件事是减少样本(行)的数量。LibSVM为此提供了一个非常有用的方法。如果您的数据集有N个样本,并且您希望将其降采样为N-K个样本,则可以使用上述脚本:(1)从数据中随机删除K个样本;(2) 使用从数据中删除K个样本。最后一个是推荐的

减少特征(列)的数量要复杂得多。你不能(你不应该)随意删除它们。有很多算法,通常称为数据简化算法。最常用的是。但它的使用并不简单