Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/visual-studio-2010/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 机器学习-大数据集的问题_Python_Machine Learning_Scikit Learn_Pca_Logistic Regression - Fatal编程技术网

Python 机器学习-大数据集的问题

Python 机器学习-大数据集的问题,python,machine-learning,scikit-learn,pca,logistic-regression,Python,Machine Learning,Scikit Learn,Pca,Logistic Regression,我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。在这种规模下,scikit算法都不起作用 我想我会应用PCA,但即使这样也不能扩展到这个数据集 我是否可以减少训练数据集中的冗余数据?我可以通过应用PCA来降维,但如果我可以应用PCA的话 因为我在做文档分类,所以通过减少单词向量大小,我将数据集重采样为244768*5672。PCA甚至不能应用于此数据集 我可以通过这种方法应用PCA吗。假设我的矩阵是- X=A.T*A pca(X)(X变成56

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。在这种规模下,scikit算法都不起作用

我想我会应用PCA,但即使这样也不能扩展到这个数据集

我是否可以减少训练数据集中的冗余数据?我可以通过应用PCA来降维,但如果我可以应用PCA的话

因为我在做文档分类,所以通过减少单词向量大小,我将数据集重采样为244768*5672。PCA甚至不能应用于此数据集

我可以通过这种方法应用PCA吗。假设我的矩阵是- X=A.T*A pca(X)(X变成5672 X 5672矩阵) 这会给我错误的答案吗

此外,当我应用逻辑回归时,我可以增量地训练模型吗

如果A=10000 x 500
我可以把1000 x 500拿到物流配送中心(A),然后对其他行做同样的操作吗?这种训练错误吗?

您可以对几个模型的数据进行分段,这些模型的输出将输入到下一个模型中,并给出结果。 基本上是它的RNN架构。
由于内存限制,将如此海量的数据放在一个网络中是不可能的。

您尝试过吗?您使用的是32位还是64位系统?64位可能会有所帮助。您能在滑动窗口中读取数据集并聚合结果吗?Pyan,我使用的是64位。SGDClassizer/SGDRegressor应该可以很好地用于此数据集。这也允许你进行增量训练。但只要您的数据适合ram,您就不必担心这一点。