如何引用spark管道中的特定数据帧?
假设我在spark中有两个具有相同特性的spark数据帧,我想构建一个管道来交叉验证它们。如何引用管道中的每个表?我在R中使用了如何引用spark管道中的特定数据帧?,r,apache-spark,pyspark,sparklyr,R,Apache Spark,Pyspark,Sparklyr,假设我在spark中有两个具有相同特性的spark数据帧,我想构建一个管道来交叉验证它们。如何引用管道中的每个表?我在R中使用了sparkyr,但我想它应该与pyspark相同 首先,我可以使用以下代码构建线性回归,并使用ml\u cross\u validator()对其进行交叉评估。 suppressMessages(库(sparklyr)) 抑制消息(库(tidyverse)) sc mtcars_sample <- sdf_sample(mtcars, fraction = 0.8
sparkyr
,但我想它应该与pyspark
相同
首先,我可以使用以下代码构建线性回归,并使用ml\u cross\u validator()对其进行交叉评估。
suppressMessages(库(sparklyr))
抑制消息(库(tidyverse))
sc
mtcars_sample <- sdf_sample(mtcars, fraction = 0.8) %>%
sdf_register("mtcars_sample")
─ Session info ───────────────────────────────────────────────────────────────────────────────────────────────────────
setting value
version R version 3.6.0 (2019-04-26)
os macOS Mojave 10.14.6
system x86_64, darwin15.6.0
ui RStudio
language (EN)
collate en_US.UTF-8
ctype en_US.UTF-8
tz Europe/Stockholm
date 2019-09-13