Python 2.7 使用pyspark在hdfs中将每行的一列作为单独的文件写入_Python 2.7_Pyspark

Python 2.7 使用pyspark在hdfs中将每行的一列作为单独的文件写入

python-2.7 pyspark

Python 2.7 使用pyspark在hdfs中将每行的一列作为单独的文件写入,python-2.7,pyspark,Python 2.7,Pyspark,我有一个用例，程序需要从csv文件中读取一列，并将数据帧中的列作为单独的文件写入hdfs。例如，如果数据框中有10行，则表示需要生成10个输出文件将您尝试过的代码发布plz..from pyspark.sql import SparkSession from pyspark.sql.functions import单调递增_id spark=SparkSession.builder.getOrCreate（）sc=spark.sparkContext final_data=spark.read.

我有一个用例，程序需要从csv文件中读取一列，并将数据帧中的列作为单独的文件写入hdfs。例如，如果数据框中有10行，则表示需要生成10个输出文件

将您尝试过的代码发布plz..from pyspark.sql import SparkSession from pyspark.sql.functions import单调递增_id spark=SparkSession.builder.getOrCreate（）sc=spark.sparkContext final_data=spark.read.format（“csv”）.load(“输入文件位置”）df1=final_data.select（“column name”）.withColumn（“num”，单调递增的_id（））df1.coalesce（1.write.partitionBy（“num”）.text（“location”）这里我将XML连接到一列中。最终输出需要为所有行生成类似.XML的文件