Apache spark 分类值和数值混合的k均值聚类
需要帮忙吗 我想提供一个简单的框架,用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行(流式处理) 我们通过file.csv重新呈现我们的数据库,该文件包含患者(医疗)记录,没有重复 我们希望通过对分类值和数值混合使用增量并行k均值聚类,将.csv文件分为4个簇,每个簇包含相似的记录 每次(数据流)出现结构化数据(记录),我们都必须将其与集群的代表(M1、M2、M3、M4)进行比较。。。。。。。。。。。。。 如果数据不表示重复数据,我们将其保存在file.csv中,如果数据表示重复数据,则不保存在file.csv中 1) 那么,在我的例子中,hadoop或spark的Efficient工具是什么呢! 2) 如何使用Mlib(spark)或mahout(hadoop)实现分类值和数值混合的集群。Apache spark 分类值和数值混合的k均值聚类,apache-spark,cluster-analysis,data-mining,k-means,spark-streaming,Apache Spark,Cluster Analysis,Data Mining,K Means,Spark Streaming,需要帮忙吗 我想提供一个简单的框架,用于在大数据上下文中识别和清除重复数据。此预处理必须实时执行(流式处理) 我们通过file.csv重新呈现我们的数据库,该文件包含患者(医疗)记录,没有重复 我们希望通过对分类值和数值混合使用增量并行k均值聚类,将.csv文件分为4个簇,每个簇包含相似的记录 每次(数据流)出现结构化数据(记录),我们都必须将其与集群的代表(M1、M2、M3、M4)进行比较。。。。。。。。。。。。。 如果数据不表示重复数据,我们将其保存在file.csv中,如果数据表示重复数据
3) 增量集群是什么意思,与流式集群相同吗 正如SO/CV中已经提到的十几次: k-均值计算均值 除非你能为分类数据定义一个最小二乘平均值(这在实践中仍然很有用),否则对此类数据使用k-均值是行不通的 当然,你可以做一个类似的黑客,但他们使结果几乎毫无意义。“最小二乘法”对于二进制输入数据不是一个有意义的目标