Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala SparkJob在远程服务器上生成文件_Scala_Apache Spark_Cassandra - Fatal编程技术网

Scala SparkJob在远程服务器上生成文件

Scala SparkJob在远程服务器上生成文件,scala,apache-spark,cassandra,Scala,Apache Spark,Cassandra,对于以下问题,我需要一些建议: 我和卡桑德拉有一个火花簇。 我需要写一个spark作业(使用Scala)从Cassandra中提取一些信息。我需要生成一个带有结果的文件,并将其放在另一台服务器上(没有Spark) 我的问题是:什么是最好的解决方案? 1.在与spark相同的服务器上生成文件,然后执行scp将其复制到我的目标服务器上? 2.是否有其他方法可以在我的目标服务器上生成文件 谢谢。更好的方法是计算结果并将其存储在HDFS(带spark的服务器)的某个目录中,nfs将此目录装载到目标服务器

对于以下问题,我需要一些建议:

我和卡桑德拉有一个火花簇。 我需要写一个spark作业(使用Scala)从Cassandra中提取一些信息。我需要生成一个带有结果的文件,并将其放在另一台服务器上(没有Spark)

我的问题是:什么是最好的解决方案? 1.在与spark相同的服务器上生成文件,然后执行scp将其复制到我的目标服务器上? 2.是否有其他方法可以在我的目标服务器上生成文件


谢谢。

更好的方法是计算结果并将其存储在HDFS(带spark的服务器)的某个目录中,nfs将此目录装载到目标服务器(不带spark的服务器)的某个路径中


让我知道这是否有用。干杯。

我忘了提一下:我需要将文件复制到两个远程服务器(我还有一些其他分布式的东西)。有可能将一个HDFS挂载到2个远程服务器上吗?你的想法不错,但我想从你的想法开始,也许我会使用rsync来代替。我认为这会更好,因为我需要的是Sync设计用于通过网络发送1000个小文件。NFS不是。NFS被设计成一个本地文件系统,在大多数操作中必须与远程主机通信。使用rsync,您基本上是在目标服务器上创建所有这些文件的副本。我相信这是你不想做的事情,这就是为什么我没有提出建议。事实上,在我的目标服务器上,我有很多工作可以上传这些文件。因此,基本上我需要在每个目标服务器上保存该文件。