Apache spark 基于spark-Mlib的k-means聚类_Apache Spark_Machine Learning_Data Mining_K Means_Text Classification

Apache spark 基于spark-Mlib的k-means聚类

apache-spark machine-learning

Apache spark 基于spark-Mlib的k-means聚类,apache-spark,machine-learning,data-mining,k-means,text-classification,Apache Spark,Machine Learning,Data Mining,K Means,Text Classification,我想对数据集执行K均值聚类，如下所示（OA、mobileNO、Text是csv的标题） OA|mobileNO|Text 575756 | 918050173932 |塞哈尔添加了一张照片。请访问 RM-444555 | 91879225717 |多米诺骨牌买一个比萨饼送一个免费 VM-OLAMNY | 919160281882 |在OLA驾驶室内增加了rs.10 如上所述，我有一个巨大的数据集，如何对数据进行聚类并找到其中隐藏的模式。（例如：哪个OA发送cab相关消息，哪个OA发送fb通知等

我想对数据集执行K均值聚类，如下所示

（OA、mobileNO、Text是csv的标题）

OA|mobileNO|Text
575756 | 918050173932 |塞哈尔添加了一张照片。请访问
RM-444555 | 91879225717 |多米诺骨牌买一个比萨饼送一个免费
VM-OLAMNY | 919160281882 |在OLA驾驶室内增加了rs.10

如上所述，我有一个巨大的数据集，如何对数据进行聚类并找到其中隐藏的模式。（例如：哪个OA发送cab相关消息，哪个OA发送fb通知等）

我必须根据他们发送的文本获取OA集群

集群1:cab相关OA集群2:fb通知等

K-means聚类是否仅对数值数据有效？

K-means仅对连续数值变量有效

这是有原因的：在其他数据上，平均值没有意义，因此k-均值聚类没有意义。
范围太广，请具体说明您的问题，到目前为止您尝试了什么？尝试仅通过文本字段进行聚类。通过标记化、停止字删除和计算TF-IDF权重。我们如何使用TF-IDF权重作为KMeans的输入。spark文档中解释了数字数据的聚类。这里我有所有文本字段。KMeans仅适用于数字向量，globecan上所有可用的框架都是这样的。请您提及一些参考资料。参考资料是什么？平均值的属性（因为这就是问题所在）？最小二乘估计？“k-均值仅在连续数值变量上可靠工作”，从这里开始。我对离散变量使用了k-均值，效果很好。你和其他方法比较过吗？k-means不会“崩溃”，但在这样的数据上，ghe结果通常并不比随机凸划分好。如果您向用户展示k-means集群和随机凸分区，并进行a/B测试，那么随机性也同样好。