Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Csv Spark:没有输入文件名_Csv_Apache Spark_Filenames_Yarn - Fatal编程技术网

Csv Spark:没有输入文件名

Csv Spark:没有输入文件名,csv,apache-spark,filenames,yarn,Csv,Apache Spark,Filenames,Yarn,在应用程序中,我们读取多个csv文件,选择一些字段,然后将其写入单个csv 对于写入的每一行,我们需要知道它来自哪个文件。有一个内置的input_file_name()函数不适用于我们: df... .withColumn("inputfilename_", input_file_name()) 在生成的文件中,始终存在: "inputfilename_":"" 我们在纱线上使用spark 2.1.0。你知道如何使它工作吗?我正在读取一个CSV,然后加入另一个数据帧,然后选择inputfil

在应用程序中,我们读取多个csv文件,选择一些字段,然后将其写入单个csv

对于写入的每一行,我们需要知道它来自哪个文件。有一个内置的input_file_name()函数不适用于我们:

df...
.withColumn("inputfilename_", input_file_name())
在生成的文件中,始终存在:

"inputfilename_":""

我们在纱线上使用spark 2.1.0。你知道如何使它工作吗?

我正在读取一个CSV,然后加入另一个数据帧,然后选择inputfilename(),但这不起作用(在群集模式下,但在本地模式下!)

现在

df.withColumn("inputfilename_", input_file_name())
  .join(...)
  .select($"inputfilename_")

我在加入前查找inputfilename,它工作正常

该函数适合我。请您提供一个最小的代码示例,以便我们重现您的问题并更好地帮助您吗?:-)