Apache spark 如何将一些文件加载到Spark节点而不复制?

Apache spark 如何将一些文件加载到Spark节点而不复制?,apache-spark,Apache Spark,我在主服务器上有一些文本文件要由Spark集群处理,以便进行统计 例如,我在主服务器上的指定目录(如/data/)中有1.txt、2.txt、3.txt。我希望使用Spark群集一次性处理所有这些文件。若我使用sc.textFile(“/data/*.txt”)加载所有文件,集群中的其他节点将无法在本地文件系统中找到这些文件。但是,如果我使用sc.addFile和SparkFiles.get在每个节点上实现它们,那么3个文本文件将下载到每个节点,并且所有这些文件都将被多次处理 没有HDFS如何解

我在主服务器上有一些文本文件要由Spark集群处理,以便进行统计

例如,我在主服务器上的指定目录(如/data/)中有1.txt、2.txt、3.txt。我希望使用Spark群集一次性处理所有这些文件。若我使用sc.textFile(“/data/*.txt”)加载所有文件,集群中的其他节点将无法在本地文件系统中找到这些文件。但是,如果我使用sc.addFile和SparkFiles.get在每个节点上实现它们,那么3个文本文件将下载到每个节点,并且所有这些文件都将被多次处理


没有HDFS如何解决它?谢谢

根据官方文件,只需将所有文件复制到所有节点即可

如果使用本地文件系统上的路径,则还必须在工作节点上的同一路径上访问该文件。将文件复制到所有工作人员或使用网络安装的共享文件系统


根据官方文件,只需将所有文件复制到所有节点

如果使用本地文件系统上的路径,则还必须在工作节点上的同一路径上访问该文件。将文件复制到所有工作人员或使用网络安装的共享文件系统


您必须将所有节点中的文件装载到同一路径中。这样,每个分区将加载唯一的文件。所以同一个文件不会加载两次?如果每个节点上的文件不同怎么办?哪个组件同步本地文件读取?您必须将所有节点中的文件装载在同一路径中。这样,每个分区将加载唯一的文件。所以同一个文件不会加载两次?如果每个节点上的文件不同怎么办?哪个组件同步本地文件读取?