Dataframe Pyspark按列划分数据并写入拼花地板
我需要在单独的s3键中按列中的值编写拼花地板文件。列Dataframe Pyspark按列划分数据并写入拼花地板,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,我需要在单独的s3键中按列中的值编写拼花地板文件。列city有数千个值。迭代使用for循环,按每个列值过滤数据帧,然后编写拼花地板非常缓慢。有没有办法按列city对数据框进行分区并写入拼花地板文件 我现在在做什么- for city in cities: print(city) spark_df.filter(spark_df.city == city).write.mode('overwrite').parquet(f'reporting/date={date_string}/city
city
有数千个值。迭代使用for循环,按每个列值过滤数据帧,然后编写拼花地板非常缓慢。有没有办法按列city
对数据框进行分区并写入拼花地板文件
我现在在做什么-
for city in cities:
print(city)
spark_df.filter(spark_df.city == city).write.mode('overwrite').parquet(f'reporting/date={date_string}/city={city}')
partitionBy函数解决了这个问题
spark_df.partitionBy('date', 'city').parquet('reporting')
但是我得到的“DataFrame”对象没有属性“parquet”