File 如何在spark群集上运行外部可执行文件_File_Apache Spark_Executable_Archive_Spark Submit

File 如何在spark群集上运行外部可执行文件

file apache-spark

File 如何在spark群集上运行外部可执行文件,file,apache-spark,executable,archive,spark-submit,File,Apache Spark,Executable,Archive,Spark Submit,我有一个在linux本地文件系统中运行的可执行文件（黑盒）。可执行文件接受多个输入文件并生成多个输出文件现在，我在HDFS中有了更大的数据集，这些数据集应该作为可执行文件的输入。因此，如果我尝试将hdfs数据下载到本地文件系统，可执行文件将永远无法处理它们。因此，我想将可执行文件分发到spark/Thread，它位于所有worker/executor节点中。然后，我将HDFS数据集读入spark数据帧，并将数据帧写入driver/executor的工作目录，我的可执行文件可以读取和处理这些数据

我有一个在linux本地文件系统中运行的可执行文件（黑盒）。可执行文件接受多个输入文件并生成多个输出文件

现在，我在HDFS中有了更大的数据集，这些数据集应该作为可执行文件的输入。因此，如果我尝试将hdfs数据下载到本地文件系统，可执行文件将永远无法处理它们。因此，我想将可执行文件分发到spark/Thread，它位于所有worker/executor节点中。然后，我将HDFS数据集读入spark数据帧，并将数据帧写入driver/executor的工作目录，我的可执行文件可以读取和处理这些数据帧，并在driver节点的工作目录中生成输出

然后，我读取驱动程序工作目录中的输出，并根据需要将它们加载到配置单元表中

对可能的解决方法有何想法或建议