R 大数据集群

R 大数据集群,r,bigdata,cluster-analysis,R,Bigdata,Cluster Analysis,我有这样一份清单: B分 B-C分数 C分 ...... 其中前两列包含变量名,第三列包含两者之间的分数。变量总数为250000 A、B、C。。。。。分数是一个浮点数[0,1]。该文件大约为50 GB。而得分为1的A、B两对被删除,因为超过一半的条目为1 我想对数据执行分层聚类 我是否应该将线性形式转换为具有250000行和250000列的矩阵?或者我应该对数据进行分区并进行聚类 我对此一无所知。请帮忙 谢谢。您的输入数据已经是矩阵了。 然而,层次聚类通常在^3上扩展。这与您的数据集大小不符。此

我有这样一份清单:

B分 B-C分数 C分 ...... 其中前两列包含变量名,第三列包含两者之间的分数。变量总数为250000 A、B、C。。。。。分数是一个浮点数[0,1]。该文件大约为50 GB。而得分为1的A、B两对被删除,因为超过一半的条目为1

我想对数据执行分层聚类

我是否应该将线性形式转换为具有250000行和250000列的矩阵?或者我应该对数据进行分区并进行聚类

我对此一无所知。请帮忙

谢谢。

您的输入数据已经是矩阵了。 然而,层次聚类通常在^3上扩展。这与您的数据集大小不符。此外,他们通常需要不止一份矩阵副本。你可能需要1TB的内存。。。2*8*250000*250000很多。 某些特殊情况会在^2上运行:SLINK会。如果您的数据被很好地排序,那么应该可以在文件的一次传递中运行单个链接。但你必须自己实现这一点。甚至不要想使用R或其他花哨的东西