Pandas 能在个人计算机上处理约500000列的熊猫数据帧吗?

Pandas 能在个人计算机上处理约500000列的熊猫数据帧吗?,pandas,machine-learning,scikit-learn,Pandas,Machine Learning,Scikit Learn,我试图使用scikit learn的KMeans算法基于重叠对一组集合进行聚类。每个集合大约有500000个潜在成员(尽管每个集合本身并不太大) 我的理解是,要使用sklearn的KMeans实现,我需要将每个集合表示为500000个空格,每个列表示一个二进制值 这对个人电脑来说是不是太大了。有没有更有效的方法来执行此操作?我对您的数据结构不是100%清楚,但是如果您有一个500k样本x N集阵列,它大部分是(~95%+)稀疏的,我不会期望有太多的麻烦。即使它是稠密的,500kx50浮标64s就

我试图使用scikit learn的
KMeans
算法基于重叠对一组集合进行聚类。每个集合大约有500000个潜在成员(尽管每个集合本身并不太大)

我的理解是,要使用sklearn的
KMeans
实现,我需要将每个集合表示为500000个空格,每个列表示一个二进制值


这对个人电脑来说是不是太大了。有没有更有效的方法来执行此操作?

我对您的数据结构不是100%清楚,但是如果您有一个500k样本x N集阵列,它大部分是(~95%+)稀疏的,我不会期望有太多的麻烦。即使它是稠密的,500kx50浮标64s就像。。。200mb


一个更好的问题是“欧几里得距离真的是测量我的集合之间距离的好方法吗?”我想。

你的电脑的配置是什么?它看起来对普通电脑来说太大了PC@Dark2016年现货机器-想想普通笔记本电脑。你对数据结构有足够的了解,我同意,这是一个更好的措辞问题。测量这些集合之间距离的更好方法(开箱即用算法)是什么?您应该选择一种对数据有意义的方法。如果没有更多的信息,我想我不能给你任何有用的建议。我也不确定是否可以使用非欧几里德距离使用
sklearn.clusters.KMeans
-也许可以尝试使用DBSCAN?KMeans作为起点。套索、山脊回归、GLM和随机森林,然后是信标:-)