Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 分类值和数值混合的k均值聚类_Apache Spark_Cluster Analysis_Data Mining_K Means_Spark Streaming - Fatal编程技术网

Apache spark 分类值和数值混合的k均值聚类

Apache spark 分类值和数值混合的k均值聚类,apache-spark,cluster-analysis,data-mining,k-means,spark-streaming,Apache Spark,Cluster Analysis,Data Mining,K Means,Spark Streaming,需要帮忙吗 我想提供一个简单的框架,用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行(流式处理) 我们通过file.csv重新呈现我们的数据库,该文件包含患者(医疗)记录,没有重复 我们希望通过对分类值和数值混合使用增量并行k均值聚类,将.csv文件分为4个簇,每个簇包含相似的记录 每次(数据流)出现结构化数据(记录),我们都必须将其与集群的代表(M1、M2、M3、M4)进行比较。。。。。。。。。。。。。 如果数据不表示重复数据,我们将其保存在file.csv中,如果数据表示重复数据

需要帮忙吗

我想提供一个简单的框架,用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行(流式处理)

我们通过file.csv重新呈现我们的数据库,该文件包含患者(医疗)记录,没有重复

我们希望通过对分类值和数值混合使用增量并行k均值聚类,将.csv文件分为4个簇,每个簇包含相似的记录

每次(数据流)出现结构化数据(记录),我们都必须将其与集群的代表(M1、M2、M3、M4)进行比较。。。。。。。。。。。。。 如果数据不表示重复数据,我们将其保存在file.csv中,如果数据表示重复数据,则不保存在file.csv中

1) 那么,在我的例子中,hadoop或spark的Efficient工具是什么呢! 2) 如何使用Mlib(spark)或mahout(hadoop)实现分类值和数值混合的集群。
3) 增量集群是什么意思,与流式集群相同吗

正如SO/CV中已经提到的十几次:

k-均值计算均值 除非你能为分类数据定义一个最小二乘平均值(这在实践中仍然很有用),否则对此类数据使用k-均值是行不通的

当然,你可以做一个类似的黑客,但他们使结果几乎毫无意义。“最小二乘法”对于二进制输入数据不是一个有意义的目标