Csv Spark:没有输入文件名
在应用程序中,我们读取多个csv文件,选择一些字段,然后将其写入单个csv 对于写入的每一行,我们需要知道它来自哪个文件。有一个内置的input_file_name()函数不适用于我们:Csv Spark:没有输入文件名,csv,apache-spark,filenames,yarn,Csv,Apache Spark,Filenames,Yarn,在应用程序中,我们读取多个csv文件,选择一些字段,然后将其写入单个csv 对于写入的每一行,我们需要知道它来自哪个文件。有一个内置的input_file_name()函数不适用于我们: df... .withColumn("inputfilename_", input_file_name()) 在生成的文件中,始终存在: "inputfilename_":"" 我们在纱线上使用spark 2.1.0。你知道如何使它工作吗?我正在读取一个CSV,然后加入另一个数据帧,然后选择inputfil
df...
.withColumn("inputfilename_", input_file_name())
在生成的文件中,始终存在:
"inputfilename_":""
我们在纱线上使用spark 2.1.0。你知道如何使它工作吗?我正在读取一个CSV,然后加入另一个数据帧,然后选择inputfilename(),但这不起作用(在群集模式下,但在本地模式下!) 现在
df.withColumn("inputfilename_", input_file_name())
.join(...)
.select($"inputfilename_")
我在加入前查找inputfilename,它工作正常该函数适合我。请您提供一个最小的代码示例,以便我们重现您的问题并更好地帮助您吗?:-)