File 如何在spark群集上运行外部可执行文件

File 如何在spark群集上运行外部可执行文件,file,apache-spark,executable,archive,spark-submit,File,Apache Spark,Executable,Archive,Spark Submit,我有一个在linux本地文件系统中运行的可执行文件(黑盒)。可执行文件接受多个输入文件并生成多个输出文件 现在,我在HDFS中有了更大的数据集,这些数据集应该作为可执行文件的输入。因此,如果我尝试将hdfs数据下载到本地文件系统,可执行文件将永远无法处理它们。因此,我想将可执行文件分发到spark/Thread,它位于所有worker/executor节点中。然后,我将HDFS数据集读入spark数据帧,并将数据帧写入driver/executor的工作目录,我的可执行文件可以读取和处理这些数据

我有一个在linux本地文件系统中运行的可执行文件(黑盒)。可执行文件接受多个输入文件并生成多个输出文件

现在,我在HDFS中有了更大的数据集,这些数据集应该作为可执行文件的输入。因此,如果我尝试将hdfs数据下载到本地文件系统,可执行文件将永远无法处理它们。因此,我想将可执行文件分发到spark/Thread,它位于所有worker/executor节点中。然后,我将HDFS数据集读入spark数据帧,并将数据帧写入driver/executor的工作目录,我的可执行文件可以读取和处理这些数据帧,并在driver节点的工作目录中生成输出

然后,我读取驱动程序工作目录中的输出,并根据需要将它们加载到配置单元表中

对可能的解决方法有何想法或建议