Apache spark Sparkyr ml“kmeans字段”；特色；不存在_Apache Spark_K Means_Apache Spark Mllib_Sparklyr

Apache spark Sparkyr ml“kmeans字段”；特色；不存在

apache-spark

Apache spark Sparkyr ml“kmeans字段”；特色；不存在,apache-spark,k-means,apache-spark-mllib,sparklyr,Apache Spark,K Means,Apache Spark Mllib,Sparklyr,AWS EC2 Spark/Hadoop集群以下BASC K-YR代码使用Spark 2.0.1 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% ml_kmeans(centers = 3) 我已经用代码做了一些测试 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% m

AWS EC2 Spark/Hadoop集群

以下BASC K-YR代码使用Spark 2.0.1

  kmeans_model <- iris_tbl %>%
  select(Petal_Width, Petal_Length) %>%
  ml_kmeans(centers = 3)

我已经用代码做了一些测试

kmeans_model <- iris_tbl %>%
  select(Petal_Width, Petal_Length) %>%
  ml_kmeans(k = 3, features = c("Petal_Length", "Petal_Width"))

kmeans\u型号%
选择（花瓣宽度、花瓣长度）%>%
ml_kmeans（k=3，features=c（“花瓣长度”、“花瓣宽度”））

或

kmeans\u型号%
dplyr:：选择（花瓣宽度、花瓣长度）%>%
ml_kmeans（中心=3，特征=c（“花瓣长度”、“花瓣宽度”））

但是仍然会出现相同的错误。

此代码在Spark 2.0中不起作用，就像它在较新版本中不起作用一样。此代码的应用不正确，与Spark版本无关。默认情况下，

ml\u kmeans

（和其他

ml\u*

函数），除了

Vector

类型列

features

<代码>功能可用于覆盖名称，应为：

长度为一个字符的向量

如果不使用

ft\u vector\u汇编程序

，使其工作的唯一方法是提供

公式

：

kmeans_model <- iris_tbl %>% 
  ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)

kmeans\u型号%
ml_kmeans（公式=~花瓣宽度+花瓣长度，k=3）

我希望

features

参数能够实现向后兼容性。您可以在上跟踪问题。我们鼓励@user9019279在下面指出的

公式

界面，因为它可以支持监督学习算法的交互。谢谢你的回答！要覆盖features列名称，实际上需要指定

features\u col

（对应于Scala

featuresCol

）<代码>功能仍然应该受到向后兼容性的尊重，我正在努力解决这一问题。我接受答案，但正如我在文章开头所说，代码仍然在Spark 2.0中工作

kmeans_model <- iris_tbl %>%
  dplyr::select(Petal_Width, Petal_Length) %>%
  ml_kmeans(centers = 3, features = c("Petal_Length", "Petal_Width"))

kmeans_model <- iris_tbl %>% 
  ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)