Apache spark 对聚类算法的建议?

Apache spark 对聚类算法的建议?,apache-spark,deep-learning,cluster-analysis,dbscan,hdbscan,Apache Spark,Deep Learning,Cluster Analysis,Dbscan,Hdbscan,在预处理后,我有一个590000条记录的数据集,我想从中找到集群,它包含字符串数据,现在假设数据集中只有一列有590000个唯一值。此外,我使用自定义的距离度量,需要计算大小为590000*590000的距离矩阵。使用一些分区逻辑,我创建了距离矩阵,但由于内存常量,无法将这些分区合并为一个大距离矩阵。有人有什么想法来解决这个问题吗??我选了一罐。有什么方法可以使用深度学习方法吗??任何其他想法都首先使用可管理的样本 因为我怀疑结果是否足够好,以保证在扩展一个无论如何都不起作用的方法时所做的任何努

在预处理后,我有一个590000条记录的数据集,我想从中找到集群,它包含字符串数据,现在假设数据集中只有一列有590000个唯一值。此外,我使用自定义的距离度量,需要计算大小为590000*590000的距离矩阵。使用一些分区逻辑,我创建了距离矩阵,但由于内存常量,无法将这些分区合并为一个大距离矩阵。有人有什么想法来解决这个问题吗??我选了一罐。有什么方法可以使用深度学习方法吗??任何其他想法

都首先使用可管理的样本

因为我怀疑结果是否足够好,以保证在扩展一个无论如何都不起作用的方法时所做的任何努力