Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Sparkyr ml“kmeans字段”;特色;不存在_Apache Spark_K Means_Apache Spark Mllib_Sparklyr - Fatal编程技术网

Apache spark Sparkyr ml“kmeans字段”;特色;不存在

Apache spark Sparkyr ml“kmeans字段”;特色;不存在,apache-spark,k-means,apache-spark-mllib,sparklyr,Apache Spark,K Means,Apache Spark Mllib,Sparklyr,AWS EC2 Spark/Hadoop集群 以下BASC K-YR代码使用Spark 2.0.1 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% ml_kmeans(centers = 3) 我已经用代码做了一些测试 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% m

AWS EC2 Spark/Hadoop集群

以下BASC K-YR代码使用Spark 2.0.1

  kmeans_model <- iris_tbl %>%
  select(Petal_Width, Petal_Length) %>%
  ml_kmeans(centers = 3)
我已经用代码做了一些测试

kmeans_model <- iris_tbl %>%
  select(Petal_Width, Petal_Length) %>%
  ml_kmeans(k = 3, features = c("Petal_Length", "Petal_Width"))
kmeans\u型号%
选择(花瓣宽度、花瓣长度)%>%
ml_kmeans(k=3,features=c(“花瓣长度”、“花瓣宽度”))

kmeans\u型号%
dplyr::选择(花瓣宽度、花瓣长度)%>%
ml_kmeans(中心=3,特征=c(“花瓣长度”、“花瓣宽度”))

但是仍然会出现相同的错误。

此代码在Spark 2.0中不起作用,就像它在较新版本中不起作用一样。此代码的应用不正确,与Spark版本无关。默认情况下,
ml\u kmeans
(和其他
ml\u*
函数),除了
Vector
类型列
features
<代码>功能可用于覆盖名称,应为:

长度为一个字符的向量

如果不使用
ft\u vector\u汇编程序
,使其工作的唯一方法是提供
公式

kmeans_model <- iris_tbl %>% 
  ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)
kmeans\u型号%
ml_kmeans(公式=~花瓣宽度+花瓣长度,k=3)

我希望
features
参数能够实现向后兼容性。您可以在上跟踪问题。我们鼓励@user9019279在下面指出的
公式
界面,因为它可以支持监督学习算法的交互。谢谢你的回答!要覆盖features列名称,实际上需要指定
features\u col
(对应于Scala
featuresCol
)<代码>功能仍然应该受到向后兼容性的尊重,我正在努力解决这一问题。我接受答案,但正如我在文章开头所说,代码仍然在Spark 2.0中工作
kmeans_model <- iris_tbl %>%
  dplyr::select(Petal_Width, Petal_Length) %>%
  ml_kmeans(centers = 3, features = c("Petal_Length", "Petal_Width"))
kmeans_model <- iris_tbl %>% 
  ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)