Apache spark Sparkyr ml“kmeans字段”;特色;不存在
AWS EC2 Spark/Hadoop集群 以下BASC K-YR代码使用Spark 2.0.1Apache spark Sparkyr ml“kmeans字段”;特色;不存在,apache-spark,k-means,apache-spark-mllib,sparklyr,Apache Spark,K Means,Apache Spark Mllib,Sparklyr,AWS EC2 Spark/Hadoop集群 以下BASC K-YR代码使用Spark 2.0.1 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% ml_kmeans(centers = 3) 我已经用代码做了一些测试 kmeans_model <- iris_tbl %>% select(Petal_Width, Petal_Length) %>% m
kmeans_model <- iris_tbl %>%
select(Petal_Width, Petal_Length) %>%
ml_kmeans(centers = 3)
我已经用代码做了一些测试
kmeans_model <- iris_tbl %>%
select(Petal_Width, Petal_Length) %>%
ml_kmeans(k = 3, features = c("Petal_Length", "Petal_Width"))
kmeans\u型号%
选择(花瓣宽度、花瓣长度)%>%
ml_kmeans(k=3,features=c(“花瓣长度”、“花瓣宽度”))
或
kmeans\u型号%
dplyr::选择(花瓣宽度、花瓣长度)%>%
ml_kmeans(中心=3,特征=c(“花瓣长度”、“花瓣宽度”))
但是仍然会出现相同的错误。此代码在Spark 2.0中不起作用,就像它在较新版本中不起作用一样。此代码的应用不正确,与Spark版本无关。默认情况下,
ml\u kmeans
(和其他ml\u*
函数),除了Vector
类型列features
<代码>功能可用于覆盖名称,应为:
长度为一个字符的向量
如果不使用ft\u vector\u汇编程序
,使其工作的唯一方法是提供公式
:
kmeans_model <- iris_tbl %>%
ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)
kmeans\u型号%
ml_kmeans(公式=~花瓣宽度+花瓣长度,k=3)
我希望features
参数能够实现向后兼容性。您可以在上跟踪问题。我们鼓励@user9019279在下面指出的公式
界面,因为它可以支持监督学习算法的交互。谢谢你的回答!要覆盖features列名称,实际上需要指定features\u col
(对应于ScalafeaturesCol
)<代码>功能仍然应该受到向后兼容性的尊重,我正在努力解决这一问题。我接受答案,但正如我在文章开头所说,代码仍然在Spark 2.0中工作
kmeans_model <- iris_tbl %>%
dplyr::select(Petal_Width, Petal_Length) %>%
ml_kmeans(centers = 3, features = c("Petal_Length", "Petal_Width"))
kmeans_model <- iris_tbl %>%
ml_kmeans(formula= ~ Petal_Width + Petal_Length, k = 3)