Apache spark 如何将一些文件加载到Spark节点而不复制？_Apache Spark

Apache spark 如何将一些文件加载到Spark节点而不复制？

apache-spark

Apache spark 如何将一些文件加载到Spark节点而不复制？,apache-spark,Apache Spark,我在主服务器上有一些文本文件要由Spark集群处理，以便进行统计例如，我在主服务器上的指定目录（如/data/）中有1.txt、2.txt、3.txt。我希望使用Spark群集一次性处理所有这些文件。若我使用sc.textFile（“/data/*.txt”）加载所有文件，集群中的其他节点将无法在本地文件系统中找到这些文件。但是，如果我使用sc.addFile和SparkFiles.get在每个节点上实现它们，那么3个文本文件将下载到每个节点，并且所有这些文件都将被多次处理没有HDFS如何解

我在主服务器上有一些文本文件要由Spark集群处理，以便进行统计

例如，我在主服务器上的指定目录（如/data/）中有1.txt、2.txt、3.txt。我希望使用Spark群集一次性处理所有这些文件。若我使用sc.textFile（“/data/*.txt”）加载所有文件，集群中的其他节点将无法在本地文件系统中找到这些文件。但是，如果我使用sc.addFile和SparkFiles.get在每个节点上实现它们，那么3个文本文件将下载到每个节点，并且所有这些文件都将被多次处理

没有HDFS如何解决它？谢谢

根据官方文件，只需将所有文件复制到所有节点即可

如果使用本地文件系统上的路径，则还必须在工作节点上的同一路径上访问该文件。将文件复制到所有工作人员或使用网络安装的共享文件系统

根据官方文件，只需将所有文件复制到所有节点

如果使用本地文件系统上的路径，则还必须在工作节点上的同一路径上访问该文件。将文件复制到所有工作人员或使用网络安装的共享文件系统

您必须将所有节点中的文件装载到同一路径中。这样，每个分区将加载唯一的文件。所以同一个文件不会加载两次？如果每个节点上的文件不同怎么办？哪个组件同步本地文件读取？您必须将所有节点中的文件装载在同一路径中。这样，每个分区将加载唯一的文件。所以同一个文件不会加载两次？如果每个节点上的文件不同怎么办？哪个组件同步本地文件读取？