Apache spark 分类值和数值混合的k均值聚类_Apache Spark_Cluster Analysis_Data Mining_K Means_Spark Streaming

Apache spark 分类值和数值混合的k均值聚类

apache-spark

Apache spark 分类值和数值混合的k均值聚类,apache-spark,cluster-analysis,data-mining,k-means,spark-streaming,Apache Spark,Cluster Analysis,Data Mining,K Means,Spark Streaming,需要帮忙吗我想提供一个简单的框架，用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行（流式处理）我们通过file.csv重新呈现我们的数据库，该文件包含患者（医疗）记录，没有重复我们希望通过对分类值和数值混合使用增量并行k均值聚类，将.csv文件分为4个簇，每个簇包含相似的记录每次（数据流）出现结构化数据（记录），我们都必须将其与集群的代表（M1、M2、M3、M4）进行比较。。。。。。。。。。。。。如果数据不表示重复数据，我们将其保存在file.csv中，如果数据表示重复数据

需要帮忙吗

我想提供一个简单的框架，用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行（流式处理）

我们通过file.csv重新呈现我们的数据库，该文件包含患者（医疗）记录，没有重复

我们希望通过对分类值和数值混合使用增量并行k均值聚类，将.csv文件分为4个簇，每个簇包含相似的记录

每次（数据流）出现结构化数据（记录），我们都必须将其与集群的代表（M1、M2、M3、M4）进行比较。。。。。。。。。。。。。如果数据不表示重复数据，我们将其保存在file.csv中，如果数据表示重复数据，则不保存在file.csv中

1）那么，在我的例子中，hadoop或spark的Efficient工具是什么呢！ 2）如何使用Mlib（spark）或mahout（hadoop）实现分类值和数值混合的集群。

3）增量集群是什么意思，与流式集群相同吗

正如SO/CV中已经提到的十几次：

k-均值计算均值除非你能为分类数据定义一个最小二乘平均值（这在实践中仍然很有用），否则对此类数据使用k-均值是行不通的

当然，你可以做一个类似的黑客，但他们使结果几乎毫无意义。“最小二乘法”对于二进制输入数据不是一个有意义的目标