Machine learning 我的数据集应该用于多大的分类实验?

Machine learning 我的数据集应该用于多大的分类实验?,machine-learning,analytics,weka,data-mining,Machine Learning,Analytics,Weka,Data Mining,我需要比较一些分类技术,比如支持向量机、神经网络、决策树等等。我在大学的联系人告诉我使用Kaggle数据集 数据集包括150000名借款人的培训集和100000名借款人的测试集。对我来说,只有训练集是有用的,因为测试集没有借款人的结果 我的问题是,考虑到大型数据集的计算工作量,我应该使用多少实例。在我用于文献研究的论文中,数据集的大小从500到2500个实例不等 您将使用多少实例? 拆分数据, 90%的培训和剩余10%的测试: size = int(len(brown_tagged_sents)

我需要比较一些分类技术,比如支持向量机、神经网络、决策树等等。我在大学的联系人告诉我使用Kaggle数据集

数据集包括150000名借款人的培训集和100000名借款人的测试集。对我来说,只有训练集是有用的,因为测试集没有借款人的结果

我的问题是,考虑到大型数据集的计算工作量,我应该使用多少实例。在我用于文献研究的论文中,数据集的大小从500到2500个实例不等

您将使用多少实例? 拆分数据, 90%的培训和剩余10%的测试:

size = int(len(brown_tagged_sents) * 0.9)
size 4160

如果我是你,这就是我为我的机器学习课程所做的,我会尝试在不同大小的数据集上应用分类技术,看看它在实践中的计算成本有多高。然后你可以决定哪一个是最适合你的标准macbook Air的上限,我花了241秒构建了一个包含1700个示例的数据集的多层接收器。在我的电脑上,我尝试用1000个实例进行逻辑回归,但10分钟后,它仍在尝试建立模型。当我尝试使用更多示例时,它崩溃了,说我没有足够的堆大小,最大为998mb。如果堆大小为998mb,速度会很慢,这正常吗?用1000个实例的训练集建立逻辑回归模型需要1850秒。我不知道weka的具体情况,但为了避免这个问题,您可以尝试使用随机梯度下降法来进行逻辑回归和svm。这是一种迭代方法,因此不需要如此巨大的堆,据我所知,这是对神经网络、svm、log reg、决策树、k-NN等的比较评估。因此,所有方法都必须使用。