Python Kmeans使用DataFrame列_Python_Apache Spark_Pyspark_Apache Spark Sql_Apache Spark Ml

Python Kmeans使用DataFrame列

python apache-spark pyspark

Python Kmeans使用DataFrame列,python,apache-spark,pyspark,apache-spark-sql,apache-spark-ml,Python,Apache Spark,Pyspark,Apache Spark Sql,Apache Spark Ml,我有这样的想法： wines = spark.table("dane_nowe_csv") selected = wines.select("price") 价格是双倍的。问题是如何将此“选定”类型转换为有效类型以用于： clusters = KMeans.train(selected, 2, maxIterations=10, initializationMode="random") 我今天很多时候都在尝试这样做，我搜索了几十个主题，但总是有一些错误，我觉得有一些简单的方法可以做到这一点

我有这样的想法：

wines = spark.table("dane_nowe_csv")
selected = wines.select("price")

价格是双倍的。问题是如何将此“选定”类型转换为有效类型以用于：

clusters = KMeans.train(selected, 2, maxIterations=10, initializationMode="random")

我今天很多时候都在尝试这样做，我搜索了几十个主题，但总是有一些错误，我觉得有一些简单的方法可以做到这一点

wines = spark.table("dane_nowe_csv")
selected = wines.select("price").map(s => s.getAs[Vector])
clusters = KMeans.train(selected, 2, maxIterations=10,initializationMode="random")

KMeans将rdd作为输入，而不是数据帧或列。

使用

DataFrames

不使用

pyspark.mllib.clustering.KMeans