Pandas 能在个人计算机上处理约500000列的熊猫数据帧吗？_Pandas_Machine Learning_Scikit Learn

Pandas 能在个人计算机上处理约500000列的熊猫数据帧吗？

pandas machine-learning scikit-learn

Pandas 能在个人计算机上处理约500000列的熊猫数据帧吗？,pandas,machine-learning,scikit-learn,Pandas,Machine Learning,Scikit Learn,我试图使用scikit learn的KMeans算法基于重叠对一组集合进行聚类。每个集合大约有500000个潜在成员（尽管每个集合本身并不太大）我的理解是，要使用sklearn的KMeans实现，我需要将每个集合表示为500000个空格，每个列表示一个二进制值这对个人电脑来说是不是太大了。有没有更有效的方法来执行此操作？我对您的数据结构不是100%清楚，但是如果您有一个500k样本x N集阵列，它大部分是（~95%+）稀疏的，我不会期望有太多的麻烦。即使它是稠密的，500kx50浮标64s就

我试图使用scikit learn的

KMeans

算法基于重叠对一组集合进行聚类。每个集合大约有500000个潜在成员（尽管每个集合本身并不太大）

我的理解是，要使用sklearn的

KMeans

实现，我需要将每个集合表示为500000个空格，每个列表示一个二进制值

这对个人电脑来说是不是太大了。有没有更有效的方法来执行此操作？

我对您的数据结构不是100%清楚，但是如果您有一个500k样本x N集阵列，它大部分是（~95%+）稀疏的，我不会期望有太多的麻烦。即使它是稠密的，500kx50浮标64s就像。。。200mb

一个更好的问题是“欧几里得距离真的是测量我的集合之间距离的好方法吗？”我想。

你的电脑的配置是什么？它看起来对普通电脑来说太大了PC@Dark2016年现货机器-想想普通笔记本电脑。你对数据结构有足够的了解，我同意，这是一个更好的措辞问题。测量这些集合之间距离的更好方法（开箱即用算法）是什么？您应该选择一种对数据有意义的方法。如果没有更多的信息，我想我不能给你任何有用的建议。我也不确定是否可以使用非欧几里德距离使用

sklearn.clusters.KMeans

-也许可以尝试使用DBSCAN？KMeans作为起点。套索、山脊回归、GLM和随机森林，然后是信标：-）