Dataframe Pyspark按列划分数据并写入拼花地板_Dataframe_Apache Spark_Pyspark

Dataframe Pyspark按列划分数据并写入拼花地板

dataframe apache-spark pyspark

Dataframe Pyspark按列划分数据并写入拼花地板,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,我需要在单独的s3键中按列中的值编写拼花地板文件。列city有数千个值。迭代使用for循环，按每个列值过滤数据帧，然后编写拼花地板非常缓慢。有没有办法按列city对数据框进行分区并写入拼花地板文件我现在在做什么- for city in cities: print(city) spark_df.filter(spark_df.city == city).write.mode('overwrite').parquet(f'reporting/date={date_string}/city

我需要在单独的s3键中按列中的值编写拼花地板文件。列

city

有数千个值。迭代使用for循环，按每个列值过滤数据帧，然后编写拼花地板非常缓慢。有没有办法按列

city

对数据框进行分区并写入拼花地板文件

我现在在做什么-

for city in cities:
  print(city)
  spark_df.filter(spark_df.city == city).write.mode('overwrite').parquet(f'reporting/date={date_string}/city={city}')

partitionBy函数解决了这个问题

spark_df.partitionBy('date', 'city').parquet('reporting')

但是我得到的“DataFrame”对象没有属性“parquet”