Machine learning 我的数据集应该用于多大的分类实验？_Machine Learning_Analytics_Weka_Data Mining

Machine learning 我的数据集应该用于多大的分类实验？

machine-learning

Machine learning 我的数据集应该用于多大的分类实验？,machine-learning,analytics,weka,data-mining,Machine Learning,Analytics,Weka,Data Mining,我需要比较一些分类技术，比如支持向量机、神经网络、决策树等等。我在大学的联系人告诉我使用Kaggle数据集数据集包括150000名借款人的培训集和100000名借款人的测试集。对我来说，只有训练集是有用的，因为测试集没有借款人的结果我的问题是，考虑到大型数据集的计算工作量，我应该使用多少实例。在我用于文献研究的论文中，数据集的大小从500到2500个实例不等您将使用多少实例？拆分数据， 90%的培训和剩余10%的测试： size = int(len(brown_tagged_sents)

我需要比较一些分类技术，比如支持向量机、神经网络、决策树等等。我在大学的联系人告诉我使用Kaggle数据集

数据集包括150000名借款人的培训集和100000名借款人的测试集。对我来说，只有训练集是有用的，因为测试集没有借款人的结果

我的问题是，考虑到大型数据集的计算工作量，我应该使用多少实例。在我用于文献研究的论文中，数据集的大小从500到2500个实例不等

您将使用多少实例？拆分数据， 90%的培训和剩余10%的测试：

size = int(len(brown_tagged_sents) * 0.9)
size 4160

如果我是你，这就是我为我的机器学习课程所做的，我会尝试在不同大小的数据集上应用分类技术，看看它在实践中的计算成本有多高。然后你可以决定哪一个是最适合你的标准macbook Air的上限，我花了241秒构建了一个包含1700个示例的数据集的多层接收器。在我的电脑上，我尝试用1000个实例进行逻辑回归，但10分钟后，它仍在尝试建立模型。当我尝试使用更多示例时，它崩溃了，说我没有足够的堆大小，最大为998mb。如果堆大小为998mb，速度会很慢，这正常吗？用1000个实例的训练集建立逻辑回归模型需要1850秒。我不知道weka的具体情况，但为了避免这个问题，您可以尝试使用随机梯度下降法来进行逻辑回归和svm。这是一种迭代方法，因此不需要如此巨大的堆，据我所知，这是对神经网络、svm、log reg、决策树、k-NN等的比较评估。因此，所有方法都必须使用。