Google cloud platform 如何从Sparkyr连接Google Dataproc群集?

Google cloud platform 如何从Sparkyr连接Google Dataproc群集?,google-cloud-platform,google-cloud-dataproc,sparklyr,Google Cloud Platform,Google Cloud Dataproc,Sparklyr,我是Spark和GCP的新手。我试着和它联系起来 sc <- spark_connect(master = "IP address") sc从集群外部连接到Dataproc上的Spark存在两个问题:配置和网络访问。这通常有点困难,而且不完全受支持,因此我建议在集群内使用Sparkyr 配置 GoogleCloudDataProc在Hadoop上运行Spark。您实际上需要使用: 我相信RStudio服务器支持SOCKS代理,可以进行设置,但我对RStudio不是很熟悉 我使用R笔记本,

我是Spark和GCP的新手。我试着和它联系起来

sc <- spark_connect(master = "IP address")

sc从集群外部连接到Dataproc上的Spark存在两个问题:配置和网络访问。这通常有点困难,而且不完全受支持,因此我建议在集群内使用Sparkyr

配置 GoogleCloudDataProc在Hadoop上运行Spark。您实际上需要使用:

我相信RStudio服务器支持SOCKS代理,可以进行设置,但我对RStudio不是很熟悉

我使用R笔记本,但它自动加载SparkR,我认为目前Sparkyr无法很好地使用Sparkyr

sc <- spark_connect(master = 'yarn-client')
$ # Needed for the curl library
$ sudo apt-get install -y libcurl4-openssl-dev
$ R
> install.packages('sparklyr')
> library(sparklyr)
> sc <- spark_connect(master = 'yarn-client')