Python 2.7 使用pyspark在hdfs中将每行的一列作为单独的文件写入

Python 2.7 使用pyspark在hdfs中将每行的一列作为单独的文件写入,python-2.7,pyspark,Python 2.7,Pyspark,我有一个用例,程序需要从csv文件中读取一列,并将数据帧中的列作为单独的文件写入hdfs。例如,如果数据框中有10行,则表示需要生成10个输出文件将您尝试过的代码发布plz..from pyspark.sql import SparkSession from pyspark.sql.functions import单调递增_id spark=SparkSession.builder.getOrCreate()sc=spark.sparkContext final_data=spark.read.

我有一个用例,程序需要从csv文件中读取一列,并将数据帧中的列作为单独的文件写入hdfs。例如,如果数据框中有10行,则表示需要生成10个输出文件

将您尝试过的代码发布plz..from pyspark.sql import SparkSession from pyspark.sql.functions import单调递增_id spark=SparkSession.builder.getOrCreate()sc=spark.sparkContext final_data=spark.read.format(“csv”).load(“输入文件位置”)df1=final_data.select(“column name”).withColumn(“num”,单调递增的_id())df1.coalesce(1.write.partitionBy(“num”).text(“location”)这里我将XML连接到一列中。最终输出需要为所有行生成类似.XML的文件