Python 机器学习-大数据集的问题
我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。在这种规模下,scikit算法都不起作用 我想我会应用PCA,但即使这样也不能扩展到这个数据集 我是否可以减少训练数据集中的冗余数据?我可以通过应用PCA来降维,但如果我可以应用PCA的话 因为我在做文档分类,所以通过减少单词向量大小,我将数据集重采样为244768*5672。PCA甚至不能应用于此数据集 我可以通过这种方法应用PCA吗。假设我的矩阵是- X=A.T*A pca(X)(X变成5672 X 5672矩阵) 这会给我错误的答案吗 此外,当我应用逻辑回归时,我可以增量地训练模型吗 如果A=10000 x 500Python 机器学习-大数据集的问题,python,machine-learning,scikit-learn,pca,logistic-regression,Python,Machine Learning,Scikit Learn,Pca,Logistic Regression,我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。在这种规模下,scikit算法都不起作用 我想我会应用PCA,但即使这样也不能扩展到这个数据集 我是否可以减少训练数据集中的冗余数据?我可以通过应用PCA来降维,但如果我可以应用PCA的话 因为我在做文档分类,所以通过减少单词向量大小,我将数据集重采样为244768*5672。PCA甚至不能应用于此数据集 我可以通过这种方法应用PCA吗。假设我的矩阵是- X=A.T*A pca(X)(X变成56
我可以把1000 x 500拿到物流配送中心(A),然后对其他行做同样的操作吗?这种训练错误吗?您可以对几个模型的数据进行分段,这些模型的输出将输入到下一个模型中,并给出结果。 基本上是它的RNN架构。
由于内存限制,将如此海量的数据放在一个网络中是不可能的。您尝试过吗?您使用的是32位还是64位系统?64位可能会有所帮助。您能在滑动窗口中读取数据集并聚合结果吗?Pyan,我使用的是64位。SGDClassizer/SGDRegressor应该可以很好地用于此数据集。这也允许你进行增量训练。但只要您的数据适合ram,您就不必担心这一点。