R 文本聚类花费太多时间

R 文本聚类花费太多时间,r,text,cluster-analysis,R,Text,Cluster Analysis,我在MacBook pro中使用TF-IDF和k-means聚类进行文本聚类。我的数据有1400个观测值,我想有140个集群。TF-IDF矩阵有101611692个元素(780.9 Mb)。我已经花了2天的时间,但是k-means聚类步骤还没有完成。这对笔记本电脑来说计算成本太高了吗?有没有更快的方法?谢谢。K-Means可能是所有聚类算法中最简单的一种。它的复杂性和处理时间随着数据点数量的增加和维度数量的增加而线性增加。因此,在具有多个数据点的高维空间中运行此方法几乎是不可行的。去掉停止词,在

我在MacBook pro中使用TF-IDF和k-means聚类进行文本聚类。我的数据有1400个观测值,我想有140个集群。TF-IDF矩阵有101611692个元素(780.9 Mb)。我已经花了2天的时间,但是k-means聚类步骤还没有完成。这对笔记本电脑来说计算成本太高了吗?有没有更快的方法?谢谢。

K-Means可能是所有聚类算法中最简单的一种。它的复杂性和处理时间随着数据点数量的增加和维度数量的增加而线性增加。因此,在具有多个数据点的高维空间中运行此方法几乎是不可行的。去掉停止词,在更小的样本上尝试,比如你现在所做的10%。确保它运行并且做你想做的,否则你将度过2天,你将结束你现在所在的位置,想知道发生了什么,因为什么都没做

你为什么不修剪矩阵?你删除了停止词了吗?100000000是很多“元素”。我猜你指的是细胞,这意味着你有大约70000个单词。你试过堵住吗?这将减少一些复杂性。除此之外,您还可以尝试通过删除不常用的单词来减少稀疏性,尽管这样做时您应该小心,因为您可能会丢失与TFIDF相关的信息。您可能还想看看
cluster::pam
,它允许通过
pamonce
参数进行一些优化。