Apache spark 基于spark-Mlib的k-means聚类

Apache spark 基于spark-Mlib的k-means聚类,apache-spark,machine-learning,data-mining,k-means,text-classification,Apache Spark,Machine Learning,Data Mining,K Means,Text Classification,我想对数据集执行K均值聚类,如下所示 (OA、mobileNO、Text是csv的标题) OA|mobileNO|Text 575756 | 918050173932 |塞哈尔添加了一张照片。请访问 RM-444555 | 91879225717 |多米诺骨牌买一个比萨饼送一个免费 VM-OLAMNY | 919160281882 |在OLA驾驶室内增加了rs.10 如上所述,我有一个巨大的数据集,如何对数据进行聚类并找到其中隐藏的模式。(例如:哪个OA发送cab相关消息,哪个OA发送fb通知等

我想对数据集执行K均值聚类,如下所示

(OA、mobileNO、Text是csv的标题)

OA|mobileNO|Text
575756 | 918050173932 |塞哈尔添加了一张照片。请访问
RM-444555 | 91879225717 |多米诺骨牌买一个比萨饼送一个免费
VM-OLAMNY | 919160281882 |在OLA驾驶室内增加了rs.10

如上所述,我有一个巨大的数据集,如何对数据进行聚类并找到其中隐藏的模式。(例如:哪个OA发送cab相关消息,哪个OA发送fb通知等)

我必须根据他们发送的文本获取OA集群

集群1:cab相关OA集群2:fb通知等


K-means聚类是否仅对数值数据有效?

K-means仅对连续数值变量有效


这是有原因的:在其他数据上,平均值没有意义,因此k-均值聚类没有意义。

范围太广,请具体说明您的问题,到目前为止您尝试了什么?尝试仅通过文本字段进行聚类。通过标记化、停止字删除和计算TF-IDF权重。我们如何使用TF-IDF权重作为KMeans的输入。spark文档中解释了数字数据的聚类。这里我有所有文本字段。KMeans仅适用于数字向量,globecan上所有可用的框架都是这样的。请您提及一些参考资料。参考资料是什么?平均值的属性(因为这就是问题所在)?最小二乘估计?“k-均值仅在连续数值变量上可靠工作”,从这里开始。我对离散变量使用了k-均值,效果很好。你和其他方法比较过吗?k-means不会“崩溃”,但在这样的数据上,ghe结果通常并不比随机凸划分好。如果您向用户展示k-means集群和随机凸分区,并进行a/B测试,那么随机性也同样好。