Python Kmeans使用DataFrame列

Python Kmeans使用DataFrame列,python,apache-spark,pyspark,apache-spark-sql,apache-spark-ml,Python,Apache Spark,Pyspark,Apache Spark Sql,Apache Spark Ml,我有这样的想法: wines = spark.table("dane_nowe_csv") selected = wines.select("price") 价格是双倍的。 问题是如何将此“选定”类型转换为有效类型以用于: clusters = KMeans.train(selected, 2, maxIterations=10, initializationMode="random") 我今天很多时候都在尝试这样做,我搜索了几十个主题,但总是有一些错误,我觉得有一些简单的方法可以做到这一点

我有这样的想法:

wines = spark.table("dane_nowe_csv")
selected = wines.select("price")
价格是双倍的。 问题是如何将此“选定”类型转换为有效类型以用于:

clusters = KMeans.train(selected, 2, maxIterations=10, initializationMode="random")
我今天很多时候都在尝试这样做,我搜索了几十个主题,但总是有一些错误,我觉得有一些简单的方法可以做到这一点

wines = spark.table("dane_nowe_csv")
selected = wines.select("price").map(s => s.getAs[Vector])
clusters = KMeans.train(selected, 2, maxIterations=10,initializationMode="random")

KMeans将rdd作为输入,而不是数据帧或列。

使用
DataFrames
不使用
pyspark.mllib.clustering.KMeans